CN108304442B - 一种文本信息处理方法、装置及存储介质 - Google Patents

一种文本信息处理方法、装置及存储介质 Download PDF

Info

Publication number
CN108304442B
CN108304442B CN201711159103.2A CN201711159103A CN108304442B CN 108304442 B CN108304442 B CN 108304442B CN 201711159103 A CN201711159103 A CN 201711159103A CN 108304442 B CN108304442 B CN 108304442B
Authority
CN
China
Prior art keywords
text
word
text information
information
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711159103.2A
Other languages
English (en)
Other versions
CN108304442A (zh
Inventor
彭思翔
钱淑钗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201711159103.2A priority Critical patent/CN108304442B/zh
Publication of CN108304442A publication Critical patent/CN108304442A/zh
Priority to PCT/CN2018/114188 priority patent/WO2019096032A1/zh
Application granted granted Critical
Publication of CN108304442B publication Critical patent/CN108304442B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文本信息处理方法、装置及存储介质,其中该方法包括:接收待识别的文本信息,按照预设的切词规则对所述文本信息进行切词处理,生成至少一个词语;获取所述至少一个词语对应的参数,其中每个参数标识一个词语;根据所述参数及预置的训练模型确定所述文本信息的特征信息,所述训练模型由至少一个类型的模板化文本训练而成;根据所述特征信息确定所述文本信息所属的所述模板化文本的类型。由于该方案在整个过程中不需要进行词性分析,因此,可以使得识别结果不会受到词语变种、标点符号、和/或其他字符等干扰信息的干扰,从而提高了对文本信息进行识别的准确性。

Description

一种文本信息处理方法、装置及存储介质
技术领域
本发明涉及通信技术领域,具体涉及一种文本信息处理方法、装置及存储介质。
背景技术
文本信息是社交平台的主要信息载体,在需要大量发送类似内容的文本信息时,可以通过模型生成模版化文本并进行发送。当需要对文本信息进行处理时,可以通过对接收到的文本信息进行识别,以便根据识别结果对该文本信息进行相应的处理,例如,对识别出的垃圾信息进行拦截或者屏蔽等,因此,如何准确地识别出垃圾信息等至关重要。
现有技术中,在发送文本信息,如发送电子邮件、即时通讯信息、博客、朋友圈及直播弹幕等场景中,当接收到文本信息时,首先对该文本信息执行切词及词性分析等特征提取的步骤,提取出一个或多个词语,例如,根据主谓宾进行切词,提取出一个或多个词语。然后,将一个或多个词语传给训练好的模型进行预测处理,由于该模型由模版化文本训练而成,因此,进行预测处理后可以识别出该文本信息所属的模版化文本的类型,即识别出该文本信息是通过哪种类型的模型生成的模版化文本。例如,是否属于垃圾信息等。
由于现有技术的方案十分依赖于词性分析的准确度,而对于采用了干扰信息的文本信息而言,其词性分析的准确度均较低,所以,现有方案对文本信息识别的准确性并不高。
发明内容
本发明实施例提供一种文本信息处理方法、装置及存储介质,旨在提高对文本信息识别的准确性。
为解决上述技术问题,本发明实施例提供以下技术方案:
一种文本信息处理方法,包括:
接收待识别的文本信息,按照预设的切词规则对所述文本信息进行切词处理,生成至少一个词语;
获取所述至少一个词语对应的参数,其中每个参数标识一个词语;
根据所述参数及预置的训练模型确定所述文本信息的特征信息,所述训练模型由至少一个类型的模板化文本训练而成;
根据所述特征信息确定所述文本信息所属的所述模板化文本的类型。
一种文本信息处理装置,包括:
接收单元,用于接收待识别的文本信息;
第一切词单元,用于按照预设的切词规则对所述文本信息进行切词处理,生成至少一个词语;
参数获取单元,用于获取所述至少一个词语对应的参数,其中每个参数标识一个词语;
确定单元,用于根据所述参数及预置的训练模型确定所述文本信息的特征信息,所述训练模型由至少一个类型的模板化文本训练而成;
识别单元,用于根据所述特征信息识别所述文本信息所属的模板化文本的类型。
可选地,所述处理单元具体用于,获取所述词语集中每个词语在所述每条训练样本中存在的频率,以及包含所述词语的目标训练样本在所述多条训练样本中的逆向文本频率;
根据所述频率及所述逆向文本频率生成所述每个词语对应的目标参数;
根据所述每个词语对应的所述目标参数生成所述参数集。
可选地,所述参数获取单元具体用于,根据所述训练模型中的所述映射关系获取所述至少一个词语对应的参数。
一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述文本信息处理方法中的步骤。
本发明实施例通过预设的切词规则对接收到的文本信息进行切词处理,生成至少一个词语,并获取至少一个词语对应的参数,其中每个参数标识一个词语;然后,根据得到的参数及预置的训练模型确定文本信息的特征信息,训练模型由至少一个类型的模板化文本训练而成,再根据特征信息识别文本信息所属的模板化文本的类型。由于该方案在整个过程中不需要进行词性分析,因此,可以使得识别结果不会受到词语变种、标点符号、和/或其他字符等信息的干扰,从而提高了对文本信息进行识别的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文本信息处理系统的场景示意图;
图2是本发明实施例提供的文本信息处理方法的流程示意图;
图3是本发明实施例提供的文本信息处理方法的另一流程示意图;
图4是本发明实施例提供的文本信息处理方法的另一流程示意图;
图5是本发明实施例提供的文本信息处理方法的另一流程示意图;
图6是本发明实施例提供的文本信息处理方法的另一流程示意图;
图7是本发明实施例提供的文本信息处理方法的另一流程示意图;
图8是本发明实施例提供的文本信息处理装置的结构示意图;
图9是本发明实施例提供的文本信息处理装置的结构示意图;
图10是本发明实施例提供的文本信息处理装置的结构示意图;
图11是本发明实施例提供的文本信息处理装置的结构示意图;
图12是本发明实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本发明实施例提供一种文本信息处理方法、装置及存储介质。
请参阅图1,图1为本发明实施例所提供的文本信息处理系统的场景示意图,该文本信息处理系统可以包括文本信息处理装置,该文本信息处理装置具体可以集成在服务器中,主要用于接收待识别的文本信息,按照预设的切词规则对文本信息进行切词处理,生成至少一个词语。然后,获取至少一个词语对应的参数,其中每个参数标识一个词语,再根据参数及预置的训练模型确定文本信息的特征信息,该训练模型由至少一个类型的模板化文本训练而成。最后,根据特征信息可确定识别结果,即根据特征信息识别文本信息所属的模板化文本的类型,等等。
此外,该文本信息处理系统还包括存储器,用于存储训练模型,服务器可以预先根据训练样本训练得到训练模型,并将该训练模型存储至存储器,以便后续需要对待识别的文本信息进行识别时,可以直接从存储器中获取训练模型对待识别的文本信息进行识别。
该文本信息处理系统还包括一个终端(例如,终端A)或多个终端(例如,终端A、终端B及终端C等),其中,该终端可以是平板电脑、手机、笔记本电脑、台式电脑等具备储存单元并安装有微处理器而具有运算能力的终端。该终端可以向文本信息处理装置发送待识别的文本信息,以使得文本信息处理装置对接收到的待识别的文本信息进行相应的处理。或者是,该终端可以向文本信息处理装置发送多条训练样本,以使得文本信息处理装置对接收到的多条训练样本进行训练,生成训练模型,等等。
以下分别进行详细说明。
在本实施例中,将从文本信息处理装置的角度进行描述,该文本信息处理装置具体可以集成在服务器或网关等网络设备中。
一种文本信息处理方法,包括:接收待识别的文本信息;按照预设的切词规则对文本信息进行切词处理,生成至少一个词语;获取至少一个词语对应的参数,其中每个参数标识一个词语;根据参数及预置的训练模型确定文本信息的特征信息,训练模型由至少一个类型的模板化文本训练而成;根据特征信息识别文本信息所属的模板化文本的类型。
请参阅图2,图2是本发明第一实施例提供的文本信息处理方法的流程示意图。该文本信息处理方法包括:
在步骤S101中,接收待识别的文本信息。
本实施例中,文本信息处理方法可以应用在电子邮件、即时通讯(例如,微信、QQ等)、博客、朋友圈、信息推送及直播弹幕等,需要对终端发送的文本信息进行识别的场景。
文本信息处理装置接收待识别的文本信息,该文本信息可以是平板电脑、手机、电脑等终端,通过电子邮件发送的信息、通过即时通讯发送的信息、通过博客发表的信息、通过弹框显示的推送信息、通过朋友圈发表的信息的及通过直播弹幕显示的信息等。该文本信息可以包括中文、英文、标点符号或表情等信息,具体内容在此处不作限定。
在步骤S102中,按照预设的切词规则对文本信息进行切词处理,生成至少一个词语。
文本信息处理装置按照预设的切词规则,对接收到的待识别文本信息进行切词处理,该预设的切词规则可以是按照每间隔预设字数进行切词,例如,每间隔2个字切为一个词语,或者是每间隔1个字切为一个词语。该预设的切词规则也可以是按照文本信息的总字数进行均匀切词,例如,当某条文本信息的总字数为15个时,可以均分每隔5个字切为一个词语。该预设的切词规则还可以是随机切词,例如,当某条文本信息的总字数为15个时,从中仅提取出3组2个字组成的词语。或者是,将总字数为15个的文本信息,切割为一个2个字组成的词语,一个1个字组成的词语,一个9个字组成的词语,以及一个3个字组成的词语。
可以理解的是,该预设的切词规则可根据实际需要进行灵活设置,例如,基于字典的切词、基于统计的切词或基于人工智能的切词等,具体内容在此处不作限定。
需要说明的是,对待识别的文本信息进行切词时,若需要保证切得的词语与映射关系中存储的词语一致,此时,可以根据映射关系确定对待识别文本信息的切词规则,其中,该映射关系为词语集与参数集之间的映射关系。例如,多条训练样本中存在某条训练样本“一一二二三三”每隔两个字的切词规则,得到“一一”、“二二”及“三三”,对于接收到的待识别的文本信息“一一一二二三三”,可以切为“一”、“一一”、“二二”及“三三”,这样就可以保证得到的“一一”、“二二”及“三三”与映射关系中存储的一致。
对文本信息进行切词处理后,可以生成至少一个词语,如图3所示,可以是只生成词语1,也可以是生成词语1至词语n等,其中,n为整数,且n>1。该词语可以是由一个中文字组成,也可以是由多个字及其他符号组成,还可以是由英文组成。可以理解的是,在实际应用中,该词语可以包括变种的词语,具体内容在此处不作限定。其中,变种的词语是指采用有异于规范词语表达的词语,例如,规范词语为“AA”,对应变种的词语为“aa”等。
需要说明的是,文本信息处理装置可以是实时或每隔预设时间对接收到的文本信息进行切词处理,或者是抽样对接收到预设数量的文本信息进行切词处理。
在步骤S103中,获取至少一个词语对应的参数。
在对文本信息进行切词处理,生成一个或多个词语后,可以获取一个词语对应的参数,或分别获取多个词语对应的参数,图3中,每个词语对应一个参数。其中,每个参数标识一个词语,该参数可以是一个数字,也可以是唯一标识词语的字符等。例如,“我们”对应的参数为0.1,“我”对应的参数为0.5。
在某些实施方式中,文本信息处理装置预先存储有训练模型,该训练模型包括词语与参数之间的映射关系,获取至少一个词语对应的参数的步骤可以包括:根据训练模型中的映射关系获取至少一个词语对应的参数。
在某些实施方式中,文本信息处理装置通过计算获取词语对应的参数:首先,获取词语在待识别的文本信息中存在的目标频率,该目标频率即为该词语在待识别的文本信息中存在的频率,例如,对于在某条待识别的文本信息Q中的词语q,词语q在该条待识别的文本信息Q中存在的目标频率的计算公式为:Y=M/X,其中,Y表示词语q在待识别的文本信息Q中的目标频率,M表示词语q在待识别的文本信息Q中出现的次数,X表示在待识别的文本信息Q中所有词语出现的次数之和。
以及,获取在预设时间段内接收到的多条文本信息中,包含该词语的文本信息在该多条文本信息的目标逆向文本频率,该目标逆向文本频率为该词语的文本信息在该多条文本信息的逆向文本频率,其计算公式为:S=log(R/T),其中,S表示目标逆向文本频率,R表示多条文本信息的总数目,T表示包含词语a的目标文本信息的数目,log为对数函数。然后,根据目标频率及目标逆向文本频率生成该词语对应的参数,其计算公式为:H=Y×S。
需要说明的是,文本信息处理装置也可以优先根据映射关系获取至少一个词语对应的参数,当该映射关系中不存在至少一个词语对应的参数时,再根据目标频率及目标逆向文本频率计算词语对应的参数。
在步骤S104中,根据参数及预置的训练模型确定文本信息的特征信息。
文本信息处理装置预先设置有训练模型,该训练模型由至少一个类型的模板化文本训练而成。例如,该训练模型由A类信息、B类信息、C类信息、D类信息等类型中的至少一个类型的模板化文本训练而成。
其中,模板化文本可以为包括变量及模板部分等的文本信息。例如,“看aa,你好=丫丫丫丫D有bb”,“看cc,你好=丫丫丫丫V有bb”,“看cc,你好=丫丫丫丫E有bb”,这三条文本信息中,可以是由“看[aa|cc],你好=丫丫丫丫[D|V|E]有bb”组成的模板化文本,其中,变量为“aa”或“cc”,以及变量为“D”或“V”或“E”,模板部分为“看,你好=丫丫丫丫有bb”。
在某些实施方式中,训练模型生成的步骤可包括:
步骤(1)获取模板化文本对应的多条训练样本;
步骤(2)按照预设的切词规则将每条训练样本分别进行切词处理,生成包含多个词语的词语集;
步骤(3)对词语集进行预处理,生成参数集,参数集中的每个参数用于标识词语集中的每个词语;
步骤(4)根据参数集对多条训练样本进行聚类处理,生成文本聚类列表;
步骤(5)根据文本聚类列表生成训练模型。
具体地,为了有针对性地进行训练,获取模板化文本对应的多条训练样本的方式,可以从接收到的历史文本信息中,随机获取模板化文本对应的多条训练样本,也可以是从A类信息、B类信息、D类信息等不同场景的历史文本信息中抽取多条训练样本,还可以是根据不同场景制造出模板化文本对应的多条训练样本。可以理解的是,训练样本的条数及获取方式可以根据实际需要进行灵活设置,具体内容在此处不作限定。
在获取到多条训练样本后,按照预设的切词规则将每条训练样本分别进行切词处理,该预设的切词规则可以使用任何切词算法,为了提高对文本信息进行处理的可靠性,该预设的切词规则与前述提到的对文本信息进行切词处理的切词规则是一致的,此处不赘述。
对多条训练样本进行切词处理后,可以生成包含多个词语的词语集,如图4所示。还可以是每条训练样本对应词语集1至词语集n,组成多条训练样本对应的词语集,其中,词语集1至词语集n中包含的词语可以是一个或多个,n为整数,且n>1。
例如,当100条训练样本中,若每条训练样本均提取出一个词语,则可以生成包含100个词语的词语集;若每条训练样本均切为6个词语,则可以生成包含600个词语的词语集。
然后,对得到的词语集进行预处理,生成参数集,如图4所示,其中,参数集中的每个参数用于标识词语集中的每个词语。还可以是每条训练样本对应词语集1至词语集n,分别对应的参数集1至参数集n,组成多条训练样本对应的参数集,其中,n为整数,且n>1。
进一步地,对词语集进行预处理,生成参数集的步骤可以包括:获取词语集中每个词语在每条训练样本中存在的频率,以及包含词语的目标训练样本在多条训练样本中的逆向文本频率;根据频率及逆向文本频率生成每个词语对应的目标参数;根据每个词语对应的目标参数生成参数集。
具体地,对词语集进行预处理包括对词语集进行加权算法(term frequency–inverse document frequency,tf-idf)转换,该tf-idf是一种用于信息检索与文本挖掘的加权技术,可以用来评估一个词语对于一条文本信息,或对于多条训练样本中的其中一条训练样本的重要程度。词语的重要性随着它在文本信息中出现的次数成正比增加,随着它在多条训练样本中出现的频率成反比下降。
其中,tf-idf中的tf表示词频,在一份给定的文件里,词频(term frequency,tf)指的是某一个给定的词语在该文件中出现的频率,即本实施例中一个词语在一条训练样本中存在的频率。tf-idf中的idf表示逆向文本频率,是对词语的数量(即出现次数)进行归一化,由于同一个词语在较长的文件里可能会比较短的文件里有更高的词数,而不管该词语重要与否,因此,逆向文本频率以防止词数偏向较长的文件。
对于在某条训练样本dj中的词语ti,其在该条训练样本dj中存在的频率(即词频)的计算公式为:
Figure GDA0003099773390000091
以上式子中,tfi,j表示词语ti在训练样本dj中的词频,ni,j表示词语ti在训练样本dj中出现的次数,∑knk,j表示在训练样本dj中所有词语出现的次数之和。例如,当将训练样本dj切为3个词语时,k=3,∑knk,j表示在训练样本dj中这3个词语出现的次数之和。
逆向文本频率(inverse document frequency,idf)是一个词语普遍重要性的度量。对于词语的ti,包含词语ti的目标训练样本在多条训练样本中的逆向文本频率,可以由多条训练样本的总数目,除以包含该词语ti的目标训练样本的数目,再将得到的商取对数得到,其计算公式如下:
Figure GDA0003099773390000092
其中,idfi表示逆向文本频率,|D|表示多条训练样本的总数目,|{j:ti∈dj}|表示包含词语ti的目标训练样本的数目(即ni,j!=0的训练样本数目)。
由于如果该词语ti不在多条训练样本中,就会导致分母为零,因此,可以使用以下计算公式:
Figure GDA0003099773390000093
在得到词语ti在某条训练样本dj中存在的频率tfi,j,以及逆向文本频率idfi后,可以根据该频率tfi,j及逆向文本频率idfi计算该词语对应的目标参数a,其计算公式为:a=tfi,j×idfi
按照上述方法计算词语集中每个词语在每条训练样本中存在的频率,以及包含词语的目标训练样本在多条训练样本中的逆向文本频率后,可以根据频率及逆向文本频率生成每个词语对应的目标参数,然后根据每个词语对应的目标参数生成参数集。
词语集中的每个词语与参数集中的每个参数之间可以形成一一对应的映射关系。该映射关系可以理解为字典,在对待识别的文本信息进行切词处理得到至少一个词语后,可以在该字典中查找该至少一个词语对应的参数,而不需要重新计算。或者是,当该字典中不存在某个词语对应的参数时,需要根据前述的tf-idf转换公式计算这个词语对应的参数。
在得到参数集后,可以根据参数集对多条训练样本进行聚类处理,该聚类处理可以包括K-means聚类算法或层次聚类算法(Balanced Iterative Reducing andClustering using Hierarchies,BIRCH)等,具体内容在此处不作限定。
根据参数集对多条训练样本进行聚类处理后,可以生成文本聚类列表,图4中,该文本聚类列表中可以包括一种类型的聚类文本形成的一个列表,或者是包括多种类型的聚类文本形成对应的多个列表,其中,每个列表包含一种类型的聚类文本。最后,可以根据文本聚类列表生成训练模型,如图4所示。
进一步地,对词语集进行预处理,生成参数集的步骤之后,文本信息处理方法还包括:对词语集与参数集之间的映射关系进行变换处理,生成映射关系在预设空间上的投影关系。
可选地,对词语集与参数集之间的映射关系进行变换处理,生成映射关系在预设空间上的投影关系的步骤包括:
根据映射关系生成样本矩阵,其中样本矩阵的每行向量为每条训练样本切词处理后得到的词语对应的参数;
获取样本矩阵的协方差矩阵,以及获取样本矩阵的特征值,根据特征值生成对角矩阵;
根据协方差矩阵及对角矩阵生成转换矩阵,将转换矩阵设定为投影关系。
具体地,首先,将词语集与参数集之间的映射关系转变为n*p维的样本矩阵dataMat,其中,样本矩阵的行数n表示训练样本的条数,样本矩阵的列数p表示每条训练样本进行切词处理后生成词语的个数。
需要说明的是,为了能够使得映射关系以矩阵的形式呈现,生成矩阵的每行向量长度需要一致。由于每条训练样本进行切词处理后生成词语的个数可以是一样的,也可以是不一样的,因此对于个数不一样的,为了保证生成矩阵每行的向量长度一致,可以用0将向量长度较短的某行向量补齐,从而可以使得每行的向量长度一致,样本矩阵的每行向量对应为每条训练样本切词处理后得到的词语所对应的参数。
然后,计算样本矩阵dataMat的协方差矩阵X,以及计算样本矩阵dataMat的特征值,并根据特征值生成对角矩阵D,对角矩阵D是一个(p,p)维的对角矩阵,包含了特征值λ1,λ2,......λp
此时,协方差矩阵X可以通过奇异值分解(Singular value decomposition,SVD)计算转换矩阵P,其计算公式如下:
X=PDPT
其中,P是一个(p,p)维的正交矩阵,该正交矩阵即为转换矩阵P,转换矩阵P的每一列都是协方差矩阵X的特征向量。通过SVD可求解出转换矩阵P,将转换矩阵P设定为样本矩阵dataMat(即映射关系)在预设空间上的投影关系。该预设空间可以是主成分空间,该主成分空间为对训练样本的词语所对应的参数。转换矩阵P在主成分空间的投影可以表示为:Y=dataMat×P,其中,Y表示投影关系。
需要说明的是,投影关系也可以是只在样本矩阵dataMat的部分维度上进行的投影,若只使用部分维度top-j主成分,则投影之后的投影关系为:Yj=dataMat×Pj,其中,Yj表示部分投影关系,Pj表示转换矩阵P的部分维度组成的矩阵。例如,Pj可以是转换矩阵P的前j列,也就是说Pj是一个(p,j)维的矩阵,Yj是一个(n,j)维的矩阵。
在某些实施方式中,可以根据转换矩阵及投影关系,通过拉回映射从主成分空间映射到原始空间,生成逆映射关系,即可根据逆映射关系确定参数对应的词语。通过拉回映射重构之后得到的逆映射关系是:Rj=Yj×(Pj)T,其中,Rj是使用部分维度top-j的主成分,进行重构之后形成的逆映射关系是一个(n,p)维的矩阵。
进一步地,在确定映射关系及投影关系后,根据文本聚类列表生成训练模型的步骤可以包括:根据映射关系、投影关系及文本聚类列表生成训练模型。即将词语集与参数集之间的映射关系(可以是样本矩阵)、映射关系在预设空间上的投影关系(可以是转换矩阵)及文本聚类列表生成的训练模型进行存储。
在确定词语对应的参数后,文本信息处理装置可以根据参数及训练模型确定文本信息的特征信息,该特征信息可以包括文本信息在文本聚类列表中所属的类别、类别对应的文本数量、以及文本信息与文本聚类列表中训练样本之间相似度等,该特征信息还可以根据实际需要进行灵活设置,具体内容在此处不作限定。
进一步地,根据参数及预置的训练模型确定文本信息的特征信息的步骤可以包括:根据参数、训练模型中的投影关系及训练模型中的文本聚类列表确定文本信息的特征信息。
在某些实施方式中,根据参数、训练模型中的投影关系及训练模型中的文本聚类列表确定文本信息的特征信息的步骤可以包括:
根据投影关系将参数在预设空间上进行投影处理,生成投影参数;
获取投影参数与文本聚类列表所在聚类区域的质心之间的最短距离;
根据最短距离确定文本信息在文本聚类列表中所属的类别、类别对应的文本数量、以及文本信息与文本聚类列表中训练样本之间相似度。
具体地,首先将词语对应的参数按照确定的投影关系,在预设空间(例如,主成分空间)上进行投影,生成投影参数。以及,获取文本聚类列表在聚类区域内进行投影生成的质心,该质心可以是一个或者是多个。
然后,计算投影参数与该质心之间距离,该距离可以是欧式距离、切比雪夫距离或汉明距离等,具体内容在此处不作限定。再确定投影参数与质心之间的最短距离,例如,当只存在一个质心时,该质心与投影参数之间的距离即为最短距离;当存在多个质心时,从多个质心与投影参数之间的距离中取最短距离。
某个质心与投影参数之间的距离越短,说明该某个质心对应的文本聚类列表中的训练样本,与待识别的文本信息之间的相似度越高。在确定最短距离后,可以根据最短距离确定文本信息在文本聚类列表中所属的类别、类别对应的文本数量、以及文本信息与文本聚类列表中训练样本之间相似度等。
可选地,为了降低计算的复杂度,可以将多条训练样本分配至多个文本库中,然后,分别对每个文本库中的每条训练样本进行切词、聚类等处理,生成每个文本库对应的训练模型,后续再根据每个文本库中的训练模型对文本信息进行识别。
在步骤S105中,根据特征信息识别文本信息所属的模板化文本的类型。
在确定文本信息的特征信息后,可以根据特征信息得到对文本信息的识别结果,如图3所示,即识别出文本信息所属的模板化文本的类型,可以根据文本信息所属的模板化文本的类型确定是否将该文本信息拦截。例如,模板化文本可以包括多种类型,当文本信息属于其中的任意一种类型时,可以将该文本信息进行拦截;当文本信息不属于其中的任意一种类型时,可以将该文本信息进行转发至对应的终端。
需要说明的是,模板化文本可以包括第一种类型和第二种类型,其中,第一种类型为不良信息的模板化文本,第二种类型为正常的模板化文本。当文本信息属于第一种类型时,可以将该文本信息进行拦截;当文本信息属于第二种类型时,可以将该文本信息进行转发至对应的终端。
由于文本信息是社交平台的主要信息载体,同时也是黑色产业传播不良信息的主要渠道,黑色产业主要使用自动机生成模版化文本自动发送,因此,为了拦截黑色产业发送的推销产品的信息、A类信息等不良信息,可以使用文本信息处理装置根据训练模型对接收到的文本信息进行识别,以便拦截不良信息。
由上述可知,本发明实施例提供的文本信息处理方法,通过预设的切词规则对接收到的文本信息进行切词处理,生成至少一个词语,并获取至少一个词语对应的参数,其中每个参数标识一个词语;然后,根据得到的参数及预置的训练模型确定文本信息的特征信息,训练模型由至少一个类型的模板化文本训练而成,再根据特征信息识别文本信息所属的模板化文本的类型。由于该方案在整个过程中不需要进行词性分析,因此,可以使得识别结果不会受到词语变种、标点符号、和/或其他字符等干扰信息的干扰,从而提高了对文本信息进行识别的准确性。
根据上述实施例所描述的方法,以下将举例作进一步详细说明。
首先,本发明实施例提供文本信息处理方法,文本信息处理装置可以预先将获取到的多条训练样本分配至多个文本库中,然后,分别对多个文本库中的每条训练样本进行切词及聚类等处理,生成每个文本库对应的子训练模型。最后,在接收到待识别的文本信息时,可以根据每个文本库对应的子训练模型对文本信息进行识别。
请参阅图5,图5为本发明实施例提供的文本信息处理方法的流程示意图。该方法流程可以包括:
步骤S201、获取模板化文本对应的多条训练样本,将多条训练样本分配至多个文本库。
由于当训练样本的条数增加时,每条训练样本的进行切词处理生成的词语个数增多,对应生成参数的个数也相应增多,通过算法对参数进行处理,生成训练模型过程中,其计算复杂度较大。例如,根据词语集与参数集之间的映射关系生成的n*p维样本矩阵,当训练样本的条数n增加时,样本矩阵dataMat的维度p也会增加,使得SVD算法的复杂度增大。因此,本实施例中,采用Boosting SVD算法,将多条训练样本分配至多个文本库,分别对每个文本库中的文本信息进行处理。例如,对每个库分别通过SVD算法进行计算,由此可以大大降低了计算复杂度。
其中,Boosting SVD算法是集合分类Boosting算法与SVD算法的结合,Boosting算法是一种用来提高弱分类算法准确度的算法,这种算法通过构造一个预测函数系列,然后以一定的方式将预测函数系列组合成一个预测函数。也就是说,Boosting算法也是一种框架算法,主要是通过对样本集的操作获得样本子集,然后用弱分类算法在样本子集上训练生成一系列的基分类器。正是借用Boosting算法的思维,本实施例将多条训练样本分配至多个文本库中,然后,分别对每个文本库中的训练样本进行切词及聚类等处理,生成每个文本库对应的子训练模型,再利用每个文本库对应的子训练模型对文本信息进行识别。
具体地,在获取到模板化文本对应的多条训练样本后,可以将多条训练样本分配至多个文本库,如图6所示,多个文本库可以包括文本库1至文本库n,其中,n为整数,且n>1。为了有针对性地进行训练,可以是从A类信息、B类信息、D类信息等不同场景的历史文本信息中抽取多条训练样本,还可以是根据不同场景制造出模板化文本对应的多条训练样本。可以理解的是,训练样本的条数及获取方式可以根据实际需要进行灵活设置,具体内容在此处不作限定。
每个文本库中训练样本可以是随机分配的,也可以是根据不同场景的模板化文本进行分配的,例如,文本库1分配的是A类信息对应的训练样本,文本库2分配的是B类信息对应的训练样本等,具体内容在此处不作限定。
步骤S202、对每个文本库的每条训练样本分别进行第一预处理,获取每个文本库分别对应的映射关系、投影关系及小类列表。
该第一预处理包括切词处理、获取词语对应的参数及聚类处理等。首先,按照预设的切词规则将每个文本库的每条训练样本分别进行切词处理,生成每每个文本库对应的词语集,此处的切词规则与前述提及的切词规则是一致的,此处不赘述。
然后,获取每个文本库中词语集对应的参数集,如图6中的参数集1至参数集n。词语集对应的参数集的获取方式,可以是通过tf-idf算法计算得到每个词语的词频tfi,j及逆向文本频率idfi,再根据词频tfi,j及逆向文本频率idfi计算该词语对应的参数,其计算方式与前述计算方式类似,此处不再赘述。在计算得到每个文本库对应的每个词语的参数后,可以生成每个文本库对应的参数集。
其中,词语集中的每个词语与参数集中的每个参数之间可以形成一一对应的映射关系,即每个文本库中对应的词语集与参数集均可形成映射关系。
在得到每个文本库对应的参数集后,可以根据每个文本库的参数集,分别对每个文本库中的多条训练样本进行文本聚类,生成小类列表,如图6所示。该文本聚类可以包括K-means聚类算法或BIRCH聚类算法等,具体内容在此处不作限定。每个小类列表可以包括一种类型的聚类文本形成的一个列表,或者是包括多种类型的聚类文本形成对应的多个列表。
其次,对每个文本库中词语集与参数集之间的映射关系进行变换处理,生成映射关系在预设空间上的投影关系。针对每个文本库对应的该投影关系的计算方式与前述计算方式类似,此处不再赘述。
需要说明的是,投影关系的计算采用的Boosting SVD算法,即针对每个文本库中均采用SVD算法进行计算,这样在SVD计算阶段大大降低了计算复杂度,而通过Boosting算法又使每个文本库对应的多个SVD结果生成一个统一的结果,加强了精确度。Boosting SVD算法可以有效解决SVD在大数据上准确度下降、计算复杂度高等问题,提高了计算准确率及降低了复杂度低。
步骤S203、根据映射关系、投影关系及小类列表生成每个文本库对应的子训练模型。
在确定每个文本库对应的词语集与参数集之间的映射关系、映射关系在预设空间上的投影关系及小类列表后,可以根据映射关系、投影关系及小类列表生成每个文本库对应的子训练模型,如图6所示,例如,可以生成子训练模型1至子训练模型n,其中,n为整数,且n>1。
步骤S204、接收待识别的文本信息,对文本信息进行第二预处理。
其中,第二预处理包括切词处理及获取词语对应的参数等,文本信息处理装置接收待识别的文本信息,该文本信息可以是平板电脑、手机、电脑等终端,通过发给另一个终端的信息等。该文本信息可以包括中文、英文、标点符号或表情等信息,具体内容在此处不作限定。
例如,终端A通过文本信息处理装置向终端B发送一封邮件,此时文本信息处理装置接收该邮件,并对该邮件中包含的文本信息进行第二预处理。又例如,终端C通过文本信息处理装置向多个终端1至终端n(其中n为大于2的整数)发送推广信息,此时文本信息处理装置接收该推广信息,并对推广信息进行第二预处理。
如图7所示,首先,文本信息处理装置按照预设的切词规则,对接收到的待识别文本信息进行切词处理,生成至少一个词语。可以是只生成词语1,也可以是生成词语1至词语n等,其中,n为整数,且n>1。
该词语可以是由一个中文字组成,也可以是由多个字及其他符号组成,还可以是由英文组成。可以理解的是,在实际应用中,该词语可以包括变种的词语,具体内容在此处不作限定。该切词规则与前述提及的切词规则类似,此处不再赘述。
然后,获取每个词语对应的参数,可选地,文本信息处理装置通过计算获取词语对应的参数:通过tf-idf算法计算得到每个词语的词频tfi,j及逆向文本频率idfi,再根据词频tfi,j及逆向文本频率idfi计算该词语对应的参数,其计算方式与前述计算方式类似,此处不再赘述。
或者是,文本信息处理装置可以根据每个文本库对应的子训练模型中的映射关系获取词语对应的参数。
步骤S205、根据每个文本库对应的子训练模型,确定文本信息对应的大类列表,根据大类列表确定文本信息的特征信息。
在确定每个词语对应的参数后,文本信息处理装置可以根据每个文本库对应的子训练模型中的投影关系、小类列表等,以及每个词语对应的参数确定文本信息对应的大类列表,如图7所示。该大类列表为文本信息在文本库1至文本库n中进行聚类,得到在文本库1至文本库n中分别所属的类别1至类别n,并由类别1至类别n组成的列表,其中,n为整数,且n>1。使得待识别的文本信息都有与每个文本库的小类列表的聚类结果,并对每个文本库的小类列表的聚类结果进行排序,得到大类列表。
具体地,将每个词语对应的参数与按照每个文本库对应的投影关系,在预设空间上进行投影,生成投影参数。以及,获取每个文本库对应的小类列表在聚类区域内进行投影生成的质心。计算每个文本库对应的投影参数与该质心之间的最短距离,根据每个文本库对应的最短距离确定文本信息,在每个文本库对应的小类列表中所属的类别。根据每个文本库对应的类别生成大类列表,然后,根据大类列表确定文本信息的特征信息,该特征信息包括文本信息在大类列表中所属的类别、类别对应的文本数量、以及文本信息与小列表中训练样本之间相似度等。
步骤S206、根据特征信息识别文本信息所属的模板化文本的类型。
在确定文本信息的特征信息后,可以根据特征信息得到对文本信息的识别结果,如图7所示,即识别出文本信息所属的模板化文本的类型。
现有技术中,除了相应对接收到的文本信息进行词性分析,导致对文本信息识别的准确性并不高之外,在训练阶段需要对训练样本进行切词及词性分析等特征提取,然后,需要人工给每一条训练样本标注其主题,之后再给模型(例如,深度神经元网络)进行训练。由于需要人工为训练样本标注主题,因此,人工收集大量待标注主题的文本信息十分困难,而且由于变种词语出现频率较快,需要一直持续的收集,耗费大量的人力。另外,由于黑色产业的对抗,文本信息中含有大量干扰信息,文本信息也多呈现短文本形式,这为切词与词性分析带来巨大的困难,也会降低词性分析的准确度。
本发明实施例中训练模型是无监督的机器学习的训练模型,在训练阶段采取一种Boosting SVD算法对训练样本进行切词、聚类等处理,这样每种模板化文本的训练样本将被分别聚到一起,生成训练模型。后续在接收到待识别的文本信息时,用Boosting SVD算法对待识别的文本信息进行处理,可以根据待识别的文本信息的特征信息自动识别出文本信息所属的模版化文本的类型。一方面,无需对进行词性分析,聚类效果不受切词的结果、文本长度、以及干扰信息等影响,该方案在长文本信息和短文本信息上同样适用,通用性及稳定性强,识别准确性高;另一方面,无需人工标注,大大减轻了人力成本;从而解决了现有技术中需要耗费大量的人力及识别准确度低等问题。
为便于更好的实施本发明实施例提供的文本信息处理方法,本发明实施例还提供一种基于上述文本信息处理方法的装置。其中名词的含义与上述文本信息处理的方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图8,图8为本发明实施例提供的文本信息处理装置的结构示意图,其中所述文本信息处理装置可以包括接收单元301、第一切词单元302、参数获取单元303、确定单元304及识别单元305等。
其中,接收单元301,用于接收待识别的文本信息。
本实施例中,文本信息处理方法可以应用在电子邮件、即时通讯(例如,微信、QQ等)、博客、朋友圈、信息推送及直播弹幕等,需要对终端发送的文本信息进行识别的场景。
接收单元301接收待识别的文本信息,该文本信息可以是平板电脑、手机、电脑等终端,通过电子邮件发送的信息、通过即时通讯发送的信息、通过博客发表的信息、通过弹框显示的推送信息、通过朋友圈发表的信息的及通过直播弹幕显示的信息等。该文本信息可以包括中文、英文、标点符号或表情等信息,具体内容在此处不作限定。
第一切词单元302,用于按照预设的切词规则对接收单元301接收到的文本信息进行切词处理,生成至少一个词语。
第一切词单元302按照预设的切词规则,对接收单元301接收到的待识别文本信息进行切词处理,该预设的切词规则可以是按照每间隔预设字数进行切词,例如,每间隔2个字切为一个词语,或者是每间隔1个字切为一个词语。该预设的切词规则也可以是按照文本信息的总字数进行均匀切词,例如,当某条文本信息的总字数为15个时,可以均分每隔5个字切为一个词语。该预设的切词规则还可以是随机切词,例如,当某条文本信息的总字数为15个时,从中仅提取出3组2个字组成的词语。或者是,将总字数为15个的文本信息,切割为一个2个字组成的词语,一个1个字组成的词语,一个9个字组成的词语,以及一个3个字组成的词语。
可以理解的是,该预设的切词规则可根据实际需要进行灵活设置,例如,基于字典的切词、基于统计的切词或基于人工智能的切词等,具体内容在此处不作限定。
需要说明的是,对待识别的文本信息进行切词时,若需要保证切得的词语与映射关系中存储的词语一致,此时,可以根据映射关系确定对待识别文本信息的切词规则,其中,该映射关系为词语集与参数集之间的映射关系。例如,多条训练样本中存在某条训练样本“一一二二三三”每隔两个字的切词规则,得到“一一”、“二二”及“三三”,对于接收到的待识别的文本信息“一一一二二三三”,可以切为“一”、“一一”、“二二”及“三三”,这样就可以保证得到的“一一”、“二二”及“三三”与映射关系中存储的一致。
对文本信息进行切词处理后,可以生成至少一个词语,如图3所示,可以是只生成词语1,也可以是生成词语1至词语n等,其中,n为整数,且n>1。该词语可以是由一个中文字组成,也可以是由多个字及其他符号组成,还可以是由英文组成。可以理解的是,在实际应用中,该词语可以包括变种的词语,具体内容在此处不作限定。其中,变种的词语是指采用有异于规范词语表达的词语,例如,规范词语为“AA”,对应变种的词语为“aa”等。
需要说明的是,第一切词单元302可以是实时或每隔预设时间对接收单元301接收到的文本信息进行切词处理,或者是抽样对接收单元301接收到预设数量的文本信息进行切词处理。
参数获取单元303,用于获取至少一个词语对应的参数,其中每个参数标识一个词语。
在第一切词单元302对文本信息进行切词处理,生成一个或多个词语后,参数获取单元303可以获取一个词语对应的参数,或分别获取多个词语对应的参数,图3中,每个词语对应一个参数。其中,每个参数标识一个词语,该参数可以是一个数字,也可以是唯一标识词语的字符等。例如,“我们”对应的参数为0.1,“我”对应的参数为0.5。
在某些实施方式中,文本信息处理装置预先存储有训练模型,该训练模型包括词语与参数之间的映射关系,参数获取单元303具体用于,根据训练模型中的映射关系获取至少一个词语对应的参数。
在某些实施方式中,参数获取单元303通过计算获取词语对应的参数:首先,获取词语在待识别的文本信息中存在的目标频率,该目标频率即为该词语在待识别的文本信息中存在的频率,例如,对于在某条待识别的文本信息Q中的词语q,词语q在该条待识别的文本信息Q中存在的目标频率的计算公式为:Y=M/X,其中,Y表示词语q在待识别的文本信息Q中的目标频率,M表示词语q在待识别的文本信息Q中出现的次数,X表示在待识别的文本信息Q中所有词语出现的次数之和。
以及,获取在预设时间段内接收到的多条文本信息中,包含该词语的文本信息在该多条文本信息的目标逆向文本频率,该目标逆向文本频率为该词语的文本信息在该多条文本信息的逆向文本频率,其计算公式为:S=log(R/T),其中,S表示目标逆向文本频率,R表示多条文本信息的总数目,T表示包含词语a的目标文本信息的数目,log为对数函数。然后,根据目标频率及目标逆向文本频率生成该词语对应的参数,其计算公式为:H=Y×S。
需要说明的是,参数获取单元303也可以优先根据映射关系获取至少一个词语对应的参数,当该映射关系中不存在至少一个词语对应的参数时,再根据目标频率及目标逆向文本频率计算词语对应的参数。
确定单元304,用于根据参数获取单元303获取到的参数及预置的训练模型确定文本信息的特征信息,训练模型由至少一个类型的模板化文本训练而成。
文本信息处理装置预先设置有训练模型,该训练模型由至少一个类型的模板化文本训练而成。例如,该训练模型由A类信息、B类信息、C类信息、D类信息等类型中的至少一个类型的模板化文本训练而成。
其中,模板化文本可以为包括变量及模板部分等的文本信息。例如,“看aa,你好=丫丫丫丫D有bb”,“看cc,你好=丫丫丫丫V有bb”,“看cc,你好=丫丫丫丫E有bb”,这三条文本信息中,可以是由“看[aa|cc],你好=丫丫丫丫[D|V|E]有bb”组成的模板化文本,其中,变量为“aa”或“cc”,以及变量为“D”或“V”或“E”,模板部分为“看,你好=丫丫丫丫有bb”。
在某些实施方式中,如图9所示,文本信息处理装置还包括:
样本获取单元306,用于获取模板化文本对应的多条训练样本;
第二切词单元307,用于按照切词规则将样本获取单元306获取到的每条训练样本分别进行切词处理,生成包含多个词语的词语集;
处理单元308,用于对第二切词单元307生成的词语集进行预处理,生成参数集,参数集中的每个参数用于标识词语集中的每个词语;
聚类单元309,用于根据处理单元308生成的参数集对多条训练样本进行聚类处理,生成文本聚类列表;
生成单元310,用于根据聚类单元309生成的文本聚类列表生成训练模型。
具体地,为了有针对性地进行训练,样本获取单元306获取模板化文本对应的多条训练样本的方式,可以从接收到的历史文本信息中,随机获取模板化文本对应的多条训练样本,也可以是从A类信息、B类信息、D类信息等不同场景的历史文本信息中抽取多条训练样本,还可以是根据不同场景制造出模板化文本对应的多条训练样本。可以理解的是,训练样本的条数及获取方式可以根据实际需要进行灵活设置,具体内容在此处不作限定。
在样本获取单元306获取到多条训练样本后,第二切词单元307按照预设的切词规则将每条训练样本分别进行切词处理,该预设的切词规则可以使用任何切词算法,为了提高对文本信息进行处理的可靠性,该预设的切词规则与前述提到的对文本信息进行切词处理的切词规则是一致的,此处不赘述。
第二切词单元307对多条训练样本进行切词处理后,可以生成包含多个词语的词语集,如图4所示。还可以是每条训练样本对应词语集1至词语集n(n>1),组成多条训练样本对应的词语集,其中,词语集1至词语集n中包含的词语可以是一个或多个,n为整数,且n>1。
例如,当100条训练样本中,若每条训练样本均提取出一个词语,则可以生成包含100个词语的词语集;若每条训练样本均切为6个词语,则可以生成包含600个词语的词语集。
然后,处理单元308对得到的词语集进行预处理,生成参数集,如图4所示,其中,参数集中的每个参数用于标识词语集中的每个词语。还可以是每条训练样本对应词语集1至词语集n,分别对应的参数集1至参数集n,组成多条训练样本对应的参数集,其中,n为整数,且n>1。
进一步地,处理单元308具体用于,获取词语集中每个词语在每条训练样本中存在的频率,以及包含词语的目标训练样本在多条训练样本中的逆向文本频率;根据频率及逆向文本频率生成每个词语对应的目标参数;根据每个词语对应的目标参数生成参数集。
具体地,处理单元308对词语集进行预处理包括对词语集进行加权算法(termfrequency–inverse document frequency,tf-idf)转换,该tf-idf是一种用于信息检索与文本挖掘的加权技术,可以用来评估一个词语对于一条文本信息,或对于多条训练样本中的其中一条训练样本的重要程度。词语的重要性随着它在文本信息中出现的次数成正比增加,随着它在多条训练样本中出现的频率成反比下降。
其中,tf-idf中的tf表示词频,在一份给定的文件里,词频(term frequency,tf)指的是某一个给定的词语在该文件中出现的频率,即本实施例中一个词语在一条训练样本中存在的频率。tf-idf中的idf表示逆向文本频率,是对词语的数量(即出现次数)进行归一化,由于同一个词语在较长的文件里可能会比较短的文件里有更高的词数,而不管该词语重要与否,因此,逆向文本频率以防止词数偏向较长的文件。
逆向文本频率(inverse document frequency,idf)是一个词语普遍重要性的度量。对于在某条训练样本dj中的词语ti,其在该条训练样本dj中存在的频率(即词频)的计算公式为:
Figure GDA0003099773390000221
以上式子中,tfi,j表示词语ti在训练样本dj中的词频,ni,j表示词语ti在训练样本dj中出现的次数,∑knk,j表示在训练样本dj中所有词语出现的次数之和。例如,当将训练样本dj切为3个词语时,k=3,∑knk,j表示在训练样本dj中这3个词语出现的次数之和。
对于词语的ti,包含词语ti的目标训练样本在多条训练样本中的逆向文本频率,可以由多条训练样本的总数目,除以包含该词语ti的目标训练样本的数目,再将得到的商取对数得到,其计算公式如下:
Figure GDA0003099773390000231
其中,idfi表示逆向文本频率,|D|表示多条训练样本的总数目,|{j:ti∈dj}|表示包含词语ti的目标训练样本的数目(即ni,j!=0的训练样本数目)。
由于如果该词语ti不在多条训练样本中,就会导致分母为零,因此,可以使用以下计算公式:
Figure GDA0003099773390000232
在得到词语ti在某条训练样本dj中存在的频率tfi,j,以及逆向文本频率idfi后,处理单元308可以根据该频率tfi,j及逆向文本频率idfi计算该词语对应的目标参数a,其计算公式为:a=tfi,j×idfi
按照上述方法计算词语集中每个词语在每条训练样本中存在的频率,以及包含词语的目标训练样本在多条训练样本中的逆向文本频率后,可以根据频率及逆向文本频率生成每个词语对应的目标参数,然后根据每个词语对应的目标参数生成参数集。
词语集中的每个词语与参数集中的每个参数之间可以形成一一对应的映射关系。该映射关系可以理解为字典,在对待识别的文本信息进行切词处理得到至少一个词语后,可以在该字典中查找该至少一个词语对应的参数,而不需要重新计算。或者是,当该字典中不存在某个词语对应的参数时,需要根据前述的tf-idf转换公式计算这个词语对应的参数。
在得到参数集后,聚类单元309可以根据参数集对多条训练样本进行聚类处理,该聚类处理可以包括K-means聚类算法或或层次聚类算法(Balanced Iterative Reducingand Clustering using Hierarchies,BIRCH)等,具体内容在此处不作限定。
聚类单元309根据参数集对多条训练样本进行聚类处理后,可以生成文本聚类列表,图4中,该文本聚类列表中可以包括一种类型的聚类文本形成的一个列表,或者是包括多种类型的聚类文本形成对应的多个列表,其中,每个列表包含一种类型的聚类文本。最后,生成单元310可以根据文本聚类列表生成训练模型,如图4所示。
进一步地,如图10所示,文本信息处理装置还包括:
变换单元311,用于对词语集与参数集之间的映射关系进行变换处理,生成映射关系在预设空间上的投影关系;
可选地,变换单元311具体用于,根据映射关系生成样本矩阵,其中样本矩阵的每行向量为每条训练样本切词处理后得到的词语对应的参数;
获取样本矩阵的协方差矩阵,以及获取样本矩阵的特征值,根据特征值生成对角矩阵;
根据协方差矩阵及对角矩阵生成转换矩阵,将转换矩阵设定为投影关系。
具体地,首先,变换单元311将词语集与参数集之间的映射关系转变为n*p维的样本矩阵dataMat,其中,样本矩阵的行数n表示训练样本的条数,样本矩阵的列数p表示每条训练样本进行切词处理后生成词语的个数。
需要说明的是,为了能够使得映射关系以矩阵的形式呈现,生成矩阵的每行向量长度需要一致。由于每条训练样本进行切词处理后生成词语的个数可以是一样的,也可以是不一样的,因此对于个数不一样的,为了保证生成矩阵每行的向量长度一致,可以用0将向量长度较短的某行向量补齐,从而可以使得每行的向量长度一致,样本矩阵的每行向量对应为每条训练样本切词处理后得到的词语所对应的参数。
然后,计算样本矩阵dataMat的协方差矩阵X,以及计算样本矩阵dataMat的特征值,并根据特征值生成对角矩阵D,对角矩阵D是一个(p,p)维的对角矩阵,包含了特征值λ1,λ2,......λp
此时,协方差矩阵X可以通过奇异值分解(Singular value decomposition,SVD)计算转换矩阵P,其计算公式如下:
X=PDPT
其中,P是一个(p,p)维的正交矩阵,该正交矩阵即为转换矩阵P,转换矩阵P的每一列都是协方差矩阵X的特征向量。通过SVD可求解出转换矩阵P,将转换矩阵P设定为样本矩阵dataMat(即映射关系)在预设空间上的投影关系。该预设空间可以是主成分空间,该主成分空间为对训练样本的词语所对应的参数。转换矩阵P在主成分空间的投影可以表示为:Y=dataMat×P,其中,Y表示投影关系。
需要说明的是,投影关系也可以是只在样本矩阵dataMat的部分维度上进行的投影,若只使用部分维度top-j主成分,则投影之后的投影关系为:Yj=dataMat×Pj,其中,Yj表示部分投影关系,Pj表示转换矩阵P的部分维度组成的矩阵。例如,Pj可以是转换矩阵P的前j列,也就是说Pj是一个(p,j)维的矩阵,Yj是一个(n,j)维的矩阵。
在某些实施方式中,可以根据转换矩阵及投影关系,通过拉回映射从主成分空间映射到原始空间,生成逆映射关系,即可根据逆映射关系确定参数对应的词语。通过拉回映射重构之后得到的逆映射关系是:Rj=Yj×(Pj)T,其中,Rj是使用部分维度top-j的主成分,进行重构之后形成的逆映射关系是一个(n,p)维的矩阵。
进一步地,生成单元310具体用于,根据映射关系、投影关系及文本聚类列表生成训练模型。即将词语集与参数集之间的映射关系(可以是样本矩阵)、映射关系在预设空间上的投影关系(可以是转换矩阵)及文本聚类列表生成的训练模型进行存储。
在确定词语对应的参数后,确定单元304可以根据参数及训练模型确定文本信息的特征信息,该特征信息可以包括文本信息在文本聚类列表中所属的类别、类别对应的文本数量、以及文本信息与文本聚类列表中训练样本之间相似度等,该特征信息还可以根据实际需要进行灵活设置,具体内容在此处不作限定。
进一步地,如图11所示,确定单元304包括:确定子单元3041,用于根据参数、训练模型中的投影关系及训练模型中的文本聚类列表确定文本信息的特征信息。
在某些实施方式中,确定子单元3041具体用于,根据投影关系将参数在预设空间上进行投影处理,生成投影参数;
获取投影参数与文本聚类列表所在聚类区域的质心之间的最短距离;
根据最短距离确定文本信息在文本聚类列表中所属的类别、类别对应的文本数量、以及文本信息与文本聚类列表中训练样本之间相似度。
具体地,首先确定子单元3041将词语对应的参数按照确定的投影关系,在预设空间(例如,主成分空间)上进行投影,生成投影参数。以及,获取文本聚类列表在聚类区域内进行投影生成的质心,该质心可以是一个或者是多个。
然后,确定子单元3041计算投影参数与该质心之间距离,该距离可以是欧式距离、切比雪夫距离或汉明距离等,具体内容在此处不作限定。再确定投影参数与质心之间的最短距离,例如,当只存在一个质心时,该质心与投影参数之间的距离即为最短距离;当存在多个质心时,从多个质心与投影参数之间的距离中取最短距离。
某个质心与投影参数之间的距离越短,说明该某个质心对应的文本聚类列表中的训练样本,与待识别的文本信息之间的相似度越高。在确定最短距离后,可以根据最短距离确定文本信息在文本聚类列表中所属的类别、类别对应的文本数量、以及文本信息与文本聚类列表中训练样本之间相似度等。
可选地,为了降低计算的复杂度,可以将多条训练样本分配至多个文本库中,然后,分别对每个文本库中的每条训练样本进行切词、聚类等处理,生成每个文本库对应的训练模型,后续再根据每个文本库中的训练模型对文本信息进行识别。
识别单元305,用于根据确定单元304得到的特征信息识别文本信息所属的模板化文本的类型。
在确定文本信息的特征信息后,识别单元305可以根据特征信息得到对文本信息的识别结果,如图3所示,即识别单元305识别出文本信息所属的模板化文本的类型,可以根据文本信息所属的模板化文本的类型确定是否将该文本信息拦截。例如,模板化文本可以包括多种类型,当文本信息属于其中的任意一种类型时,可以将该文本信息进行拦截;当文本信息不属于其中的任意一种类型时,可以将该文本信息进行转发至对应的终端。
需要说明的是,模板化文本可以包括第一种类型和第二种类型,其中,第一种类型为不良信息的模板化文本,第二种类型为正常的模板化文本。当文本信息属于第一种类型时,可以将该文本信息进行拦截;当文本信息属于第二种类型时,可以将该文本信息进行转发至对应的终端。
由于文本信息是社交平台的主要信息载体,同时也是黑色产业传播不良信息的主要渠道,黑色产业主要使用自动机生成模版化文本自动发送,因此,为了拦截黑色产业发送的推销产品的信息、A类信息等不良信息,可以使用文本信息处理装置根据训练模型对接收到的文本信息进行识别,以便拦截掉不良信息。
由上述可知,本发明实施例提供的文本信息处理装置,第一切词单元302通过预设的切词规则对接收单元301接收到的文本信息进行切词处理,生成至少一个词语,并由参数获取单元303获取至少一个词语对应的参数,其中每个参数标识一个词语;然后,确定单元304根据得到的参数及预置的训练模型确定文本信息的特征信息,训练模型由至少一个类型的模板化文本训练而成,再由识别单元305根据特征信息识别文本信息所属的模板化文本的类型。由于该方案在整个过程中不需要进行词性分析,因此,可以使得识别结果不会受到词语变种、标点符号、和/或其他字符等干扰信息的干扰,从而提高了对文本信息进行识别的准确性。
本发明实施例还提供一种服务器,其可以集成本发明实施例的文本信息处理装置,如图12所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图12中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选地,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
服务器还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
接收待识别的文本信息;按照预设的切词规则对文本信息进行切词处理,生成至少一个词语;获取至少一个词语对应的参数,其中每个参数标识一个词语;根据参数及预置的训练模型确定文本信息的特征信息,训练模型由至少一个类型的模板化文本训练而成;根据特征信息识别文本信息所属的模板化文本的类型。
可选地,该处理器401还可以用于,获取模板化文本对应的多条训练样本;按照切词规则将每条训练样本分别进行切词处理,生成包含多个词语的词语集;对词语集进行预处理,生成参数集,参数集中的每个参数用于标识词语集中的每个词语;根据参数集对多条训练样本进行聚类处理,生成文本聚类列表;根据文本聚类列表生成训练模型。
可选地,该处理器401还可以用于,获取词语集中每个词语在每条训练样本中存在的频率,以及包含词语的目标训练样本在多条训练样本中的逆向文本频率;根据频率及逆向文本频率生成每个词语对应的目标参数;根据每个词语对应的目标参数生成参数集。
可选地,该处理器401还可以用于,对词语集与参数集之间的映射关系进行变换处理,生成映射关系在预设空间上的投影关系;根据文本聚类列表生成训练模型的步骤包括:根据映射关系、投影关系及文本聚类列表生成训练模型。
可选地,该处理器401还可以用于,根据参数、训练模型中的投影关系及训练模型中的文本聚类列表确定文本信息的特征信息。
可选地,该处理器401还可以用于,根据投影关系将参数在预设空间上进行投影处理,生成投影参数;获取投影参数与文本聚类列表所在聚类区域的质心之间的最短距离;根据最短距离确定文本信息在文本聚类列表中所属的类别、类别对应的文本数量、以及文本信息与文本聚类列表中训练样本之间相似度。
可选地,该处理器401还可以用于,根据映射关系生成样本矩阵,其中样本矩阵的每行向量为每条训练样本切词处理后得到的词语对应的参数;获取样本矩阵的协方差矩阵,以及获取样本矩阵的特征值,根据特征值生成对角矩阵;根据协方差矩阵及对角矩阵生成转换矩阵,将转换矩阵设定为投影关系。
可选地,该处理器401还可以用于,根据训练模型中的映射关系获取至少一个词语对应的参数。
由上述可知,本发明实施例提供的服务器,通过预设的切词规则对接收到的文本信息进行切词处理,生成至少一个词语,并获取至少一个词语对应的参数,其中每个参数标识一个词语;然后,根据得到的参数及预置的训练模型确定文本信息的特征信息,训练模型由至少一个类型的模板化文本训练而成,再根据特征信息识别文本信息所属的模板化文本的类型。由于该方案在整个过程中不需要进行词性分析,因此,可以使得识别结果不会受到词语变种、标点符号、和/或其他字符等干扰信息的干扰,从而提高了对文本信息进行识别的准确性。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对文本信息处理方法的详细描述,此处不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种导航信息处理方法中的步骤。例如,该指令可以执行如下步骤:
接收待识别的文本信息;按照预设的切词规则对文本信息进行切词处理,生成至少一个词语;获取至少一个词语对应的参数,其中每个参数标识一个词语;根据参数及预置的训练模型确定文本信息的特征信息,训练模型由至少一个类型的模板化文本训练而成;根据特征信息识别文本信息所属的模板化文本的类型。
可选地,该指令可以执行如下步骤,获取模板化文本对应的多条训练样本;按照切词规则将每条训练样本分别进行切词处理,生成包含多个词语的词语集;对词语集进行预处理,生成参数集,参数集中的每个参数用于标识词语集中的每个词语;根据参数集对多条训练样本进行聚类处理,生成文本聚类列表;根据文本聚类列表生成训练模型。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种文本信息处理方法中的步骤,因此,可以实现本发明实施例所提供的任一种文本信息处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种文本信息处理方法、装置及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种文本信息处理方法,其特征在于,包括:
接收待识别的文本信息;
根据词语集与参数集之间的映射关系确定切词规则,按照所述切词规则对所述文本信息进行切词处理,生成至少一个词语;
根据预置的训练模型中词语与参数之间的映射关系获取至少一个词语对应的参数,其中每个参数标识一个词语;
根据所述参数及所述训练模型确定所述文本信息的特征信息,所述训练模型由至少一个类型的模板化文本训练而成,所述模板化文本可以为包括变量及模板部分,所述特征信息包括所述文本信息在文本聚类列表中所属的类别、所述类别对应的文本数量、以及所述文本信息与所述文本聚类列表中训练样本之间相似度;
根据所述特征信息识别所述文本信息所属的模板化文本的类型。
2.根据权利要求1所述的文本信息处理方法,其特征在于,所述根据所述参数及预置的训练模型确定所述文本信息的特征信息的步骤之前,所述方法还包括:
获取所述模板化文本对应的多条训练样本;
按照所述切词规则将每条训练样本分别进行切词处理,生成包含多个词语的词语集;
对所述词语集进行预处理,生成参数集,所述参数集中的每个参数用于标识所述词语集中的每个词语;
根据所述参数集对所述多条训练样本进行聚类处理,生成文本聚类列表;
根据所述文本聚类列表生成所述训练模型。
3.根据权利要求2所述的文本信息处理方法,其特征在于,所述对所述词语集进行预处理,生成参数集的步骤包括:
获取所述词语集中每个词语在所述每条训练样本中存在的频率,以及包含所述词语的目标训练样本在所述多条训练样本中的逆向文本频率;
根据所述频率及所述逆向文本频率生成所述每个词语对应的目标参数;
根据所述每个词语对应的所述目标参数生成所述参数集。
4.根据权利要求2所述的文本信息处理方法,其特征在于,所述对所述词语集进行预处理,生成参数集的步骤之后,所述方法还包括:
对所述词语集与所述参数集之间的映射关系进行变换处理,生成所述映射关系在预设空间上的投影关系;
所述根据所述文本聚类列表生成所述训练模型的步骤包括:
根据所述映射关系、所述投影关系及所述文本聚类列表生成所述训练模型。
5.根据权利要求4所述的文本信息处理方法,其特征在于,所述根据所述参数及预置的训练模型确定所述文本信息的特征信息的步骤包括:
根据所述参数、所述训练模型中的投影关系及所述训练模型中的文本聚类列表确定所述文本信息的特征信息。
6.根据权利要求5所述的文本信息处理方法,其特征在于,所述根据所述参数、所述训练模型中的投影关系及所述训练模型中的文本聚类列表确定所述文本信息的特征信息的步骤包括:
根据所述投影关系将所述参数在所述预设空间上进行投影处理,生成投影参数;
获取所述投影参数与所述文本聚类列表所在聚类区域的质心之间的最短距离;
根据所述最短距离确定所述文本信息在所述文本聚类列表中所属的类别、所述类别对应的文本数量、以及所述文本信息与所述文本聚类列表中训练样本之间相似度。
7.根据权利要求4至6中任一项所述的文本信息处理方法,其特征在于,所述对映射关系进行变换处理,生成所述映射关系在预设空间上的投影关系的步骤包括:
根据所述映射关系生成样本矩阵,其中所述样本矩阵的每行向量为每条训练样本切词处理后得到的词语对应的参数;
获取所述样本矩阵的协方差矩阵,以及获取所述样本矩阵的特征值,根据所述特征值生成对角矩阵;
根据所述协方差矩阵及所述对角矩阵生成转换矩阵,将所述转换矩阵设定为所述投影关系。
8.一种文本信息处理装置,其特征在于,包括:
接收单元,用于接收待识别的文本信息;
第一切词单元,用于根据词语集与参数集之间的映射关系确定切词规则,按照所述切词规则对所述文本信息进行切词处理,生成至少一个词语;
参数获取单元,用于根据预置的训练模型中词语与参数之间的映射关系获取至少一个词语对应的参数,其中每个参数标识一个词语;
确定单元,用于根据所述参数及所述训练模型确定所述文本信息的特征信息,所述训练模型由至少一个类型的模板化文本训练而成,所述模板化文本可以为包括变量及模板部分,所述特征信息包括所述文本信息在文本聚类列表中所属的类别、所述类别对应的文本数量、以及所述文本信息与所述文本聚类列表中训练样本之间相似度;
识别单元,用于根据所述特征信息识别所述文本信息所属的模板化文本的类型。
9.根据权利要求8所述的文本信息处理装置,其特征在于,所述文本信息处理装置还包括:
样本获取单元,用于获取所述模板化文本对应的多条训练样本;
第二切词单元,用于按照所述切词规则将每条训练样本分别进行切词处理,生成包含多个词语的词语集;
处理单元,用于对所述词语集进行预处理,生成参数集,所述参数集中的每个参数用于标识所述词语集中的每个词语;
聚类单元,用于根据所述参数集对所述多条训练样本进行聚类处理,生成文本聚类列表;
生成单元,用于根据所述文本聚类列表生成所述训练模型。
10.根据权利要求9所述的文本信息处理装置,其特征在于,所述文本信息处理装置还包括:
变换单元,用于对所述词语集与所述参数集之间的映射关系进行变换处理,生成所述映射关系在预设空间上的投影关系;
所述生成单元具体用于,根据所述映射关系、所述投影关系及所述文本聚类列表生成所述训练模型。
11.根据权利要求10所述的文本信息处理装置,其特征在于,所述确定单元包括:
确定子单元,用于根据所述参数、所述训练模型中的投影关系及所述训练模型中的文本聚类列表确定所述文本信息的特征信息。
12.根据权利要求11所述的文本信息处理装置,其特征在于,所述确定子单元具体用于,根据所述投影关系将所述参数在所述预设空间上进行投影处理,生成投影参数;
获取所述投影参数与所述文本聚类列表所在聚类区域的质心之间的最短距离;
根据所述最短距离确定所述文本信息在所述文本聚类列表中所属的类别、所述类别对应的文本数量、以及所述文本信息与所述文本聚类列表中训练样本之间相似度。
13.根据权利要求10至12中任一项所述的文本信息处理装置,其特征在于,所述变换单元具体用于,根据所述映射关系生成样本矩阵,其中所述样本矩阵的每行向量为每条训练样本切词处理后得到的词语对应的参数;
获取所述样本矩阵的协方差矩阵,以及获取所述样本矩阵的特征值,根据所述特征值生成对角矩阵;
根据所述协方差矩阵及所述对角矩阵生成转换矩阵,将所述转换矩阵设定为所述投影关系。
14.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至7中任一项所述的文本信息处理方法中的步骤。
CN201711159103.2A 2017-11-20 2017-11-20 一种文本信息处理方法、装置及存储介质 Active CN108304442B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711159103.2A CN108304442B (zh) 2017-11-20 2017-11-20 一种文本信息处理方法、装置及存储介质
PCT/CN2018/114188 WO2019096032A1 (zh) 2017-11-20 2018-11-06 文本信息处理方法、计算机设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711159103.2A CN108304442B (zh) 2017-11-20 2017-11-20 一种文本信息处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN108304442A CN108304442A (zh) 2018-07-20
CN108304442B true CN108304442B (zh) 2021-08-31

Family

ID=62869687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711159103.2A Active CN108304442B (zh) 2017-11-20 2017-11-20 一种文本信息处理方法、装置及存储介质

Country Status (2)

Country Link
CN (1) CN108304442B (zh)
WO (1) WO2019096032A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304442B (zh) * 2017-11-20 2021-08-31 腾讯科技(深圳)有限公司 一种文本信息处理方法、装置及存储介质
CN109389418A (zh) * 2018-08-17 2019-02-26 国家电网有限公司客户服务中心 基于lda模型的供电服务客户诉求识别方法
CN109597888A (zh) * 2018-11-19 2019-04-09 北京百度网讯科技有限公司 建立文本领域识别模型的方法、装置
CN109361962B (zh) * 2018-11-26 2019-08-16 上海竑讯信息科技有限公司 互联网流媒体大数据弹幕信息处理系统及处理方法
CN109815488A (zh) * 2018-12-26 2019-05-28 出门问问信息科技有限公司 自然语言理解训练数据生成方法、装置、设备及存储介质
CN110058858B (zh) * 2019-04-19 2023-05-02 东信和平科技股份有限公司 一种json数据处理方法及装置
CN110110299B (zh) * 2019-04-28 2023-04-07 腾讯科技(上海)有限公司 文本变换方法、装置以及服务器
CN110135413B (zh) * 2019-05-08 2021-08-17 达闼机器人有限公司 一种字符识别图像的生成方法、电子设备和可读存储介质
CN110276081B (zh) * 2019-06-06 2023-04-25 百度在线网络技术(北京)有限公司 文本生成方法、装置及存储介质
CN110995926A (zh) * 2019-11-27 2020-04-10 惠州Tcl移动通信有限公司 一种信息提醒方法、装置、计算机设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608070A (zh) * 2015-12-21 2016-05-25 中国科学院信息工程研究所 一种面向新闻标题的人物关系抽取方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6996575B2 (en) * 2002-05-31 2006-02-07 Sas Institute Inc. Computer-implemented system and method for text-based document processing
CN101315624B (zh) * 2007-05-29 2015-11-25 阿里巴巴集团控股有限公司 一种文本主题推荐的方法和装置
US8271422B2 (en) * 2008-11-29 2012-09-18 At&T Intellectual Property I, Lp Systems and methods for detecting and coordinating changes in lexical items
CN101763431A (zh) * 2010-01-06 2010-06-30 电子科技大学 基于海量网络舆情信息的pl聚类处理方法
CN104217717B (zh) * 2013-05-29 2016-11-23 腾讯科技(深圳)有限公司 构建语言模型的方法及装置
CN103336766B (zh) * 2013-07-04 2016-12-28 微梦创科网络科技(中国)有限公司 短文本垃圾识别以及建模方法和装置
CN103441924B (zh) * 2013-09-03 2016-06-08 盈世信息科技(北京)有限公司 一种基于短文本的垃圾邮件过滤方法及装置
CN104112026B (zh) * 2014-08-01 2017-09-08 中国联合网络通信集团有限公司 一种短信文本分类方法及系统
CN105159998A (zh) * 2015-09-08 2015-12-16 海南大学 一种基于文档聚类关键词计算方法
CN107229638A (zh) * 2016-03-24 2017-10-03 北京搜狗科技发展有限公司 一种文本信息处理方法及装置
CN108304442B (zh) * 2017-11-20 2021-08-31 腾讯科技(深圳)有限公司 一种文本信息处理方法、装置及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608070A (zh) * 2015-12-21 2016-05-25 中国科学院信息工程研究所 一种面向新闻标题的人物关系抽取方法

Also Published As

Publication number Publication date
CN108304442A (zh) 2018-07-20
WO2019096032A1 (zh) 2019-05-23

Similar Documents

Publication Publication Date Title
CN108304442B (zh) 一种文本信息处理方法、装置及存储介质
CN110909165B (zh) 数据处理方法、装置、介质及电子设备
CN110245557B (zh) 图片处理方法、装置、计算机设备及存储介质
CN108537176B (zh) 目标弹幕的识别方法、装置、终端及存储介质
US9098741B1 (en) Discriminitive learning for object detection
US11301509B2 (en) Image search system, image search method, and program
CN112330455B (zh) 用于推送信息的方法、装置、设备以及存储介质
US20180239986A1 (en) Image Clustering Method, Image Clustering System, And Image Clustering Server
CN109558533B (zh) 一种基于多重聚类的个性化内容推荐方法及装置
CN113127605B (zh) 一种目标识别模型的建立方法、系统、电子设备及介质
US12118770B2 (en) Image recognition method and apparatus, electronic device and readable storage medium
CN110096697B (zh) 词向量矩阵压缩方法和装置、及获取词向量的方法和装置
US20190130030A1 (en) Generation method, generation device, and recording medium
CN110347827A (zh) 面向异构文本运维数据的事件提取方法
CN110532449B (zh) 一种业务文档的处理方法、装置、设备和存储介质
US20230081015A1 (en) Method and apparatus for acquiring information, electronic device and storage medium
US20230186613A1 (en) Sample Classification Method and Apparatus, Electronic Device and Storage Medium
CN111708872B (zh) 对话方法、装置及电子设备
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
CN113177479B (zh) 图像分类方法、装置、电子设备及存储介质
CN112989040B (zh) 一种对话文本标注方法、装置、电子设备及存储介质
CN110059180B (zh) 文章作者身份识别及评估模型训练方法、装置及存储介质
CN114328885A (zh) 一种信息处理方法、装置及计算机可读存储介质
CN111708884A (zh) 文本分类方法、装置及电子设备
CN112632229A (zh) 文本聚类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant