CN109284486A - 文本相似性度量方法、装置、终端及存储介质 - Google Patents

文本相似性度量方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN109284486A
CN109284486A CN201810925459.0A CN201810925459A CN109284486A CN 109284486 A CN109284486 A CN 109284486A CN 201810925459 A CN201810925459 A CN 201810925459A CN 109284486 A CN109284486 A CN 109284486A
Authority
CN
China
Prior art keywords
text
probability
probability vector
vector
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810925459.0A
Other languages
English (en)
Other versions
CN109284486B (zh
Inventor
杜若
覃勋辉
向海
侯聪
刘科
刘波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Yuzhi Technology Co Ltd
Original Assignee
Chongqing Yuzhi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Yuzhi Technology Co Ltd filed Critical Chongqing Yuzhi Technology Co Ltd
Priority to CN201810925459.0A priority Critical patent/CN109284486B/zh
Publication of CN109284486A publication Critical patent/CN109284486A/zh
Application granted granted Critical
Publication of CN109284486B publication Critical patent/CN109284486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文本相似性度量方法、装置、终端及存储介质,其中方法包括:获取待处理的第一文本的第一概率向量,以及待处理的第二文本的第二概率向量;根据目标概率模型、所述第一概率向量和所述第二概率向量判断所述第一文本和所述第二文本是否属于同一相似文本集合;若所述第一文本和所述第二文本属于同一相似文本集合,则确定所述第一文本和所述第二文本相似。本发明实施例通过第一文本的第一意图类别所对应的第一概率向量和第二文本的第二意图类别所对应的第二概率向量来判断第一文本和第二文本的相似性,可以提高相似性度量结果的准确性。

Description

文本相似性度量方法、装置、终端及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及文本相似性度量方法、装置、终端及存储介质。
背景技术
相似性度量,即综合评定两个事物之间相近程度的一种度量。相似性度量方法在信息检索领域是备受关注的研究内容,可以被广泛运用于信息检索和智能问答系统。目前,常用的相似性度量方法主要包括:欧式距离相似性度量方法和角度相似性度量方法(例如cos相似性度量)。目前常用的相似性度量方法主要通过计算两个文本之间的距离或者角度,根据计算出的距离或角度来评判两个文本的相似度。
由于自然语言具有语言表达丰富多样的特点,对于同一句话,可能存在不同的表达方式。两个文本的表达方式的不同,则会影响计算出的两个文本之间的距离或者角度,其相似度也会随之受到影响。由此可见,目前的相似性度量方法在计算两个文本的相似度时,会受到文本的表达方式的影响,其计算出的相似度的准确性较低。
发明内容
本发明实施例提供了一种文本相似性度量方法、装置、终端及计算机可读存储介质,可以提高相似性度量结果的准确性。
一方面,本发明实施例提供了一种文本相似性度量方法,所述文本相似性度量方法包括:
获取待处理的第一文本的第一概率向量,以及待处理的第二文本的第二概率向量;其中,所述第一概率向量为所述第一文本的第一意图类别所对应的概率向量,所述第二概率向量为所述第二文本的第二意图类别所对应的概率向量;
根据目标概率模型、所述第一概率向量和所述第二概率向量判断所述第一文本和所述第二文本是否属于同一相似文本集合;
若所述第一文本和所述第二文本属于同一相似文本集合,则确定所述第一文本和所述第二文本相似。
另一方面,本发明实施例提供了一种文本相似性度量装置,所述文本相似性度量装置包括:
获取单元,用于获取待处理的第一文本的第一概率向量,以及待处理的第二文本的第二概率向量;其中,所述第一概率向量为所述第一文本的第一意图类别所对应的概率向量,所述第二概率向量为所述第二文本的第二意图类别所对应的概率向量;
判断单元,用于根据目标概率模型、所述第一概率向量和所述第二概率向量判断所述第一文本和所述第二文本是否属于同一相似文本集合;
确定单元,用于若所述第一文本和所述第二文本属于同一相似文本集合,则确定所述第一文本和所述第二文本相似。
再一方面,本发明实施例提供一种用于文本相似性度量的终端,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如下步骤:
获取待处理的第一文本的第一概率向量,以及待处理的第二文本的第二概率向量;其中,所述第一概率向量为所述第一文本的第一意图类别所对应的概率向量,所述第二概率向量为所述第二文本的第二意图类别所对应的概率向量;
根据目标概率模型、所述第一概率向量和所述第二概率向量判断所述第一文本和所述第二文本是否属于同一相似文本集合;
若所述第一文本和所述第二文本属于同一相似文本集合,则确定所述第一文本和所述第二文本相似。
再一方面,本发明实施例提供了一种计算机存储介质,所述计算机存储介质存储有一条或一条以上指令,所述一条或一条以上指令适于由处理器加载并执行如下步骤:
获取待处理的第一文本的第一概率向量,以及待处理的第二文本的第二概率向量;其中,所述第一概率向量为所述第一文本的第一意图类别所对应的概率向量,所述第二概率向量为所述第二文本的第二意图类别所对应的概率向量;
根据目标概率模型、所述第一概率向量和所述第二概率向量判断所述第一文本和所述第二文本是否属于同一相似文本集合;
若所述第一文本和所述第二文本属于同一相似文本集合,则确定所述第一文本和所述第二文本相似。
本发明实施例在对待处理的第一文本和第二文本进行相似性度量时,可以获取第一文本的第一概率向量和第二文本的第二概率向量。然后根据目标概率模型、第一概率向量和第二概率向量判断第一文本和所述第二文本是否属于同一相似文本集合;若属于,则确定第一文本和第二文本相似。本发明实施例不需要计算第一文本和第二文本之间的距离或者角度,可以避免因文本表达方式的影响,导致误判第一文本和第二文本之间的相似性,可以提高相似性度量结果的准确性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文本相似性度量方法的流程示意图;
图2是本发明另一实施例提供的一种文本相似性度量方法的流程示意图;
图3是本发明实施例提供的一种文本相似性度量装置的结构示意图;
图4是本发明实施例提供的一种用于文本相似性度量的终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明实施例中,提供了一种文本相似性度量方法,该文本相似性度量方法可以运用在信息检索中。例如用户在通过互联网搜索引擎检索信息时,终端可以根据用户所输入的查询信息,采用此文本相似性度量方法判断数据库中已存储信息与该查询信息是否属于同一相似文本集合,此处的同一相似文本集合为意图相似且内容相似的文本所构成的集合。若属于,则可以认为该已存储信息与查询信息相似,并可以将该已存储信息输出,以供用户查看。在一种实施方式中,该文本相似性度量方法还可以运用在智能问答系统中,智能问答系统是新一代智能搜索引擎,采用一问一答的方式,向用户反馈准确的答案。
例如用户在智能问答系统中输入问题A(第一文本)后,智能问答系统可以从问题数据库中存储的问题中任意选取一个问题作为问题B(第二文本)。然后可以分别获取问题A的意图类别所对应的第一概率向量,以及问题B的意图类别所对应的第二概率向量。然后可以根据目标概率模型、第一概率向量和第二概率向量判断问题A和问题B是否属于同一相似问题集合(即同一相似文本集合);若属于,则可以确定问题A和问题B相似。由于问题A和问题B相似,那么问题A所对应的答案与问题B所对应的答案也相似。若智能问答系统中没有预先存储问题A,无法确定问题A的答案,那么可以获取已存储的问题B所对应的目标答案,并此目标答案反馈给用户。
基于上述的描述,本发明实施例提出了一种文本相似性度量方法,该文本相似性度量方法的流程示意图可以如图1所示。在一种实施方式中,本发明实施例所提供的文本相似性度量方法可以由终端执行,此处的终端可以包括但不限于:移动电话、膝上型计算机或平板计算机等便携式设备,以及台式计算机,等等。再一种实施方式中,该文本相似性度量方法也可以由服务器执行,此处的服务器可以包括但不限于:数据处理服务器、web服务器、搜索引擎所对应的服务器,或者智能问答系统所对应的应用服务器,等等。
本发明实施例以终端执行该文本相似性度量方法为例,请参见图1,该文本相似性度量方法可以包括以下步骤S101-S103:
S101,获取待处理的第一文本的第一概率向量,以及待处理的第二文本的第二概率向量。
其中,第一概率向量为第一文本的第一意图类别所对应的概率向量,第二概率向量为第二文本的第二意图类别所对应的概率向量。文本是一种书面语言的表现形式,可以是一个句子或多个句子的组合,此处的句子可以是问句、陈述句、祈使句,等等。相应的,此处的第一文本和第二文本均可以是待处理的问句(问题)、陈述句或者祈使句等等。终端在检测到进行文本相似性度量的触发事件后,可以获取待处理的第一文本和第二文本。
此处的触发事件可以是接收到用户输入的文本的事件;例如用户在浏览器或者智能问答系统中输入文本后,终端接收到此文本,则可以认为检测到了进行文本相似性度量的触发事件。此时,终端可以将接收到的用户输入的文本作为待处理的第一文本,从数据库中获取任意获取一个文本作为待处理的第二文本,并分别获取第一文本的第一概率向量和第二文本的第二概率向量。在一种实施方式中,终端也可以从数据库中获取一个与输入的文本同类型的文本作为待处理的第二文本;例如,输入的文本类型为问句(问题),则可以从数据库中任意获取一个问句(问题)作为待处理的第二文本。需要说明的是,终端也可以将接收到的用户输入的文本作为待处理的第二文本,将从数据库中获取的文本作为待处理的第一文本,在此不作限定。
此处的触发事件还可以是接收到执行相似性度量指令的事件;例如,用户想要判断终端数据库中任意两个文本是否相似时,可以向终端输入一个相似性度量指令,该相似性度量指令可以是点击指令、按压指令、或者语音指令等等。终端接收到此相似性度量指令,则可以认为检测到了进行文本相似性度量的触发事件。此时,终端可以从数据库中任意选取两个文本作为待处理的第一文本和待处理的第二文本,并分别获取第一文本的第一概率向量和第二文本的第二概率向量。在一种实施方式中,终端也可以从数据库中任意获取两个同类型的文本作为待处理的第一文本和待处理的第二文本;例如,任意获取两个问句(问题)作为待处理的第一文本和待处理的第二文本。
S102,根据目标概率模型、第一概率向量和第二概率向量判断第一文本和第二文本是否属于同一相似文本集合。
目标概率模型可以是终端采用样本数据进行模型训练后所得到的模型,可以用于计算概率。实践表明,若第一文本和第二文本相似,那么第一文本和第二文本属于同一相似文本集合的第一相似概率比较大,第一文本和第二文本属于不同相似文本集合的第二相似概率比较小;若第一文本和第二文本不相似,那么第一文本和第二文本属于同一相似文本集合的第一相似概率比较小,第一文本和第二文本属于不同相似文本集合的第二相似概率比较大。
因此,本发明实施例在根据目标概率模型、第一概率向量和第二概率向量判断第一文本和第二文本是否属于同一相似文本集合时,可以先假设第一文本和第二文本属于同一相似文本集合,此时可以调用目标概率模型,根据第一概率向量和第二概率向量计算出第一相似概率;并且还可以假设第一文本和第二文本属于不同相似文本集合,此时可以调用目标概率模型,根据第一概率向量和第二概率向量计算出第二相似概率。然后可以根据第一相似概率和第二相似概率判断第一文本和第二文本是否属于同一相似文本集合;具体的,若第一相似概率大于第二相似概率,则可以认为第一文本和第二文本属于同一相似文本集合;若第一相似概率小于第二相似概率,则可以认为第一文本和第二文本属于不同相似文本集合。
S103,若第一文本和第二文本属于同一相似文本集合,则确定第一文本和第二文本相似。
本发明实施例在对待处理的第一文本和第二文本进行相似性度量时,可以获取第一文本的第一概率向量和第二文本的第二概率向量。然后根据目标概率模型、第一概率向量和第二概率向量判断第一文本和所述第二文本是否属于同一相似文本集合;若属于,则确定第一文本和第二文本相似。本发明实施例不需要计算第一文本和第二文本之间的距离或者角度,可以避免因文本表达方式的影响,导致误判第一文本和第二文本之间的相似性,可以提高相似性度量结果的准确性。
请参见图2,是本发明实施例提供的另一种文本相似性度量方法的流程示意图,该文本相似性度量方法可以由终端或者服务器执行。本发明实施例以终端执行该文本相似性度量方法为例,如图2所示,本发明实施例中的文本相似性度量方法可包括如下步骤S201-S207:
S201,获取样本数据,该样本数据包括至少一个文本集合,任一文本集合中包括至少两个文本。
终端可以针对不同的应用领域、不同的应用场景或者业务需求,预先准备大量的样本数据,并将这些样本数据分为一个或多个文本集合,例如,样本数据为集合D,那么D={D1,D2,…,DN},N表示样本数据包括N个文本集合。任意一个文本集合中均可包括至少两个文本,例如,任意一个文本集合为Di,(i=1,2,…,N),那么Di={sen_i1,sen_i2,…,sen_im},m表示文本集合包括m个文本。
在一种实施方式中,终端可以根据意图相似原则和内容相似原则将样本数据分成多个文本集合,每一个文本集合中的至少两个文本的意图相似和内容均相似。例如,一个文本为“鼠标的作用是什么?”,另一个文本为“鼠标是干什么用的?”,这两个文本的意图均是询问物体的作用,且内容均是关于鼠标的,因此可以将这两个文本归为同一文本集合中。
S202,针对样本数据中的任一文本集合,对文本集合的各个文本进行意图分类处理,得到文本集合的各个文本的概率向量。
此处的各个文本的概率向量可以指各个文本的意图类别所对应的概率向量,可以根据各个文本的意图类别和预设意图类别的对应关系来确定。例如,预设意图类别包括如下几个类别:“time_rules”、“definition_rules”、“meaning_rules”、“usage_rules”、“unknown”,某一个文本的意图类别为[meaning_rules,usage_rules],该意图类别所对应的概率向量为[0,0,0.5,0.5,0],那么该文本的概率向量为[0,0,0.5,0.5,0]。又如,某文本的意图类别为[definition_rules],该意图类别所对应的概率向量为[0,1,0,0,0],那么该文本的概率向量为[0,1,0,0,0]。
在针对样本数据中的任一文本集合,对文本集合的各个文本进行意图分类处理时,终端可以采用意图分类算法对各个文本进行意图分类处理,此处的意图分类算法可以包括但不限于:问句文法、fastText算法、深度学习CNN意图分类算法,等等。采用意图分类算法对任意一个文本集合中的任意一个文本进行意图分类处理,可以得到该文本的概率向量。例如,设意图分类算法所对应的分类器为:intention_classify,那么任意一个文本集合(第i个文本集合)中的任意一个文本(第j个文本)的概率向量为:xij=intention_classify(sen_ij)=[p1,p2,…,pn],其中,i∈[1,N],j∈[1,m],n表示预设意图类别的数量。
在一种实施方式中,若通过意图分类算法对文本进行意图分类处理后,得到了该文本的意图类别,而没有得到该意图类别所对应的概率向量,即意图类别中的“unknown”所对应的概率值为1,则可以根据该意图类别确定该概率向量。具体的,可以采用概率平均的方式确定概率向量。例如,预设意图类别包括:A类别、B类别、C类别、D类别以及“unknown”;该文本的意图类别除了“unknown”之外,包括了四个类别,分别是:A类别、B类别、C类别以及D类别,基于概率总值为1,对除了“unknown”之外的四个类别进行概率平均,则可以分别得到A类别的概率为0.25、B类别的概率为0.25、C类别的概率为0.25以及D类别的概率为0.25。因此,该意图类别所对应的概率向量(即该文本的概率向量)为[0.25,0.25,0.25,0.25,0]。
S203,采用样本数据中的各文本集合的各个文本的概率向量进行模型参数训练,得到训练完成的目标参数。
S204,采用目标参数构建目标概率模型。
在步骤S203-S204中,在一种实施方式中,可以直接采用样本数据中的各文本集合的各个文本的概率向量对目标概率模型的参数进行训练,得到的目标参数为该目标概率模型的参数。然后采用该目标参数直接构建目标概率模型。
再一种实施方式中,可以先采用样本数据中的各个文本集合的各个文本的概率向量对概率线性判别模型的参数进行训练,得到的目标参数为概率线性判别模型的参数。然后采用该目标参数构建概率线性判别模型,并对该概率线性判别模型进行转换,得到目标概率模型。此处的概率线性判别模型可以如式1.1所示:
xij=μ+Fhi+Gwij+εij 式1.1
其中,μ+Fhi为信号成分,该信号成分与文本集合i有关,与文本集合i中的具体文本j无关,该信号成分可用于描述相似文本之间的差异;Gwij+εij为噪声成分,该噪声部分用于描述文本之间的意图差异。将样本数据的各个文本集合的各个文本的概率向量xij代入式1.1中,以对概率线性判别模型的参数μ、F、G以及ε进行训练,得到μ、F、G以及ε的参数值。在一种实施方式中,由于式1.1中存在h和wi两个隐形变量,因此可以选择EM(Expectation Maximization Algorithm,最大期望算法)算法求解μ、F、G以及ε的参数值。
由于,μ可以表示样本数据中的所有文本的意图均值,例如样本数据包括三个文本,这三个文本的意图类别所对应的概率向量分别是[0,0.3,0.3,0.4]、[0.3,0,0.3,0.4]、以及[0.3,0.3,0.3,0.1],那么μ等于这三个概率向量的均值,即μ等于([0,0.3,0.3,0.4]+[0.3,0,0.3,0.4]+[0.3,0.3,0.3,0.1])/3=[0.2,0.2,0.3,0.3]。F可以表示文本集合空间,包含了可以用来表示文本集合的基底;hi可以表示文本集合在F空间中的位置;G可以表示文本集合自身的误差空间,包含了可以用来表示同一文本集合中的不同文本的基底;wij可以表示该文本在该G空间中的位置;εij可以表示模型中的不确定因素总和,实践表明,εij为零均值高斯分布,其方差为∑。其中,在求得ε以后,可以确定∑的值。因此,本发明实施例可以将概率线性判别模型的式1.1表示为矩阵的形式,如式1.2所示:
将上述式1.2简化,可以得到式1.3:
x′=μ′+Ay+ε′ 式1.3
其中,
本发明实施例中的目标概率模型为高斯概率模型,因此,可以将式1.3转换为高斯概率模型的形式,如式1.4所示:
其中,GX′表示向量组X′符合高斯分布。
S205,获取待处理的第一文本的第一概率向量,以及待处理的第二文本的第二概率向量。
在确定了第一文本和第二文本之后,可以采用问句文法等意图分类算法分别对第一文本和第二文本进行意图分类处理,从而得到第一文本的第一概率向量,以及第二文本的第二概率向量。如果在进行意图分类处理后,没有得到第一文本的第一概率向量,即第一文本的第一意图类别中的“unknown”所对应的概率值为1,则可以基于概率平均的方式确定第一概率向量,具体的实现过程可以参见上述步骤S202。同理,如果在进行意图分类处理后,没有得到第二文本的第二概率向量,则也可以基于概率平均的方式确定第二概率向量,具体的实现过程也可以参见上述步骤S202。
S206,根据目标概率模型、第一概率向量和第二概率向量判断第一文本和第二文本是否属于同一相似文本集合。
在具体实施过程中,步骤S206可以包括如下步骤s11-s13:
s11,调用目标概率模型,根据第一概率向量和第二概率向量计算第一文本和第二文本属于同一相似文本集合的第一相似概率。
假设第一文本和第二文本属于同一相似文本集合,则可以先采用第一概率向量和第二概率向量构成目标概率向量组;然后调用目标概率模型对该目标概率向量组进行概率运算,得到第一相似概率Pr(X1.X2),即Pr(X1.X2)=Pr([X1,X2])。
例如,第一概率向量X1为[0,0.3,0.3,0.4]、第二概率向量X2为[0.3,0.3,0.3,0.1],那么构成的目标概率向量组[X1,X2]为然后将此目标概率向量组输入至目标概率模型中,以得到第一相似概率Pr(X1.X2)。
s12,调用目标概率模型,根据第一概率向量和第二概率向量计算第一文本和第二文本属于不同相似文本集合的第二相似概率。
假设第一文本和第二文本属于不同相似文本集合,则可以先调用目标概率模型对第一概率向量进行概率运算,得到第一中间概率Pr(X1),以及调用目标概率模型对第二概率向量进行概率运算,得到第二中间概率Pr(X2);然后将第一中间概率Pr(X1)和第二中间概率Pr(X2)的乘积确定为第二相似概率。
例如,第一概率向量X1为[0,0.3,0.3,0.4]、第二概率向量X2为[0.3,0.3,0.3,0.1],那么调用目标概率模型对向量[0,0.3,0.3,0.4]进行运算,得到第一中间概率Pr(X1);调用目标概率模型对向量[0.3,0.3,0.3,0.1]进行运算,得到第二中间概率Pr(X2)。然后Pr(X1)*Pr(X2)计算得到第二相似概率。
s13,根据第一相似概率和第二相似概率,判断第一文本和第二问是否属于同一相似文本集合。
由前述可知,若第一相似概率大于第二相似概率,则可以认为第一文本和第二文本属于同一相似文本集合;若第一相似概率小于第二相似概率,则可以认为第一文本和第二文本属于不同相似文本集合。因此,在根据第一相似概率和第二相似概率判断第一文本和第二问是否属于同一相似文本集合时,可以先根据第一相似概率和第二相似概率确定概率差值;若该概率差值大于预设阈值,则确定第一文本和第二文本属于同一相似文本集合;若该概率差值小于预设阈值,则确定第一文本和第二文本属于不同相似文本集合。此处的预设阈值可以根据实际业务需求制定,例如,该预设阈值可以为0。
在一种实施方式中,根据第一相似概率和第二相似概率确定概率差值的具体实施方式可以是:直接将第一相似概率和第二相似概率的差值确定为概率差值。
再一种实施方式中,由于目标概率模型为高斯概率模型,因此采用目标概率模型所求取出的第一相似概率和第二相似概率可能为指数形式。为了便于求取概率差值,根据所述第一相似概率和所述第二相似概率确定概率差值的具体实施方式还可以是:先对第一相似概率进行对数运算,得到第一对数值,以及对第二相似概率进行对数运算,得到第二对数值;再将第一对数值和第二对数值的差值确定为概率差值,此时的概率差值S可以如下,以预设阈值为0为例:
S=ln(Pr(X1.X2))-ln(Pr(X1)*Pr(X2))。
若S>0,则第一文本和第二文本属于同一相似文本集合;
若S<0,则第一文本和第二文本属于不同相似文本集合。
S207,若第一文本和第二文本属于同一相似文本集合,则确定第一文本和第二文本相似。
本发明实施例在对待处理的第一文本和第二文本进行相似性度量时,可以获取第一文本的第一概率向量和第二文本的第二概率向量。然后根据目标概率模型、第一概率向量和第二概率向量判断第一文本和所述第二文本是否属于同一相似文本集合;若属于,则确定第一文本和第二文本相似。本发明实施例不需要计算第一文本和第二文本之间的距离或者角度,可以避免因文本表达方式的影响,导致误判第一文本和第二文本之间的相似性,可以提高相似性度量结果的准确性。
基于上述文本相似性度量方法实施例的描述,本发明实施例还公开了一种文本相似性度量装置,所述文本相似性度量装置可以是运行于终端中的一个计算机程序(包括程序代码),也可以是包含在终端中的一个实体装置。该文本相似性度量装置可以执行图1至图2所示的文本相似性度量方法。请参见图3,所述文本相似性度量装置可以运行如下单元:
获取单元101,用于获取待处理的第一文本的第一概率向量,以及待处理的第二文本的第二概率向量;其中,所述第一概率向量为所述第一文本的第一意图类别所对应的概率向量,所述第二概率向量为所述第二文本的第二意图类别所对应的概率向量;
判断单元102,用于根据目标概率模型、所述第一概率向量和所述第二概率向量判断所述第一文本和所述第二文本是否属于同一相似文本集合;
确定单元103,用于若所述第一文本和所述第二文本属于同一相似文本集合,则确定所述第一文本和所述第二文本相似。
在一种实施方式中,所述判断单元102在用于根据目标概率模型、所述第一概率向量和所述第二概率向量判断所述第一文本和所述第二文本是否属于同一相似文本集合时,可具体用于:
调用目标概率模型,根据所述第一概率向量和所述第二概率向量计算所述第一文本和所述第二文本属于同一相似文本集合的第一相似概率;
调用所述目标概率模型,根据所述第一概率向量和所述第二概率向量计算所述第一文本和所述第二文本属于不同相似文本集合的第二相似概率;
根据所述第一相似概率和所述第二相似概率,判断所述第一文本和所述第二问是否属于同一相似文本集合。
再一种实施方式中,所述判断单元102在用于根据所述第一相似概率和所述第二相似概率,判断所述第一文本和所述第二问是否属于同一相似文本集合合时,可具体用于:
根据所述第一相似概率和所述第二相似概率确定概率差值;
若所述概率差值大于预设阈值,则确定所述第一文本和所述第二文本属于同一相似文本集合;
若所述概率差值小于预设阈值,则确定所述第一文本和所述第二文本属于不同相似文本集合。
再一种实施方式中,所述判断单元102在用于根据所述第一相似概率和所述第二相似概率确定概率差值时,可具体用于:
对所述第一相似概率进行对数运算,得到第一对数值,以及对所述第二相似概率进行对数运算,得到第二对数值;
将所述第一对数值和所述第二对数值的差值确定为所述概率差值。
再一种实施方式中,所述判断单元102在用于调用目标概率模型,根据所述第一概率向量和所述第二概率向量计算所述第一文本和所述第二文本属于同一相似文本集合的第一相似概率时,可具体用于:
采用所述第一概率向量和所述第二概率向量构成目标概率向量组;
调用目标概率模型对所述目标概率向量组进行概率运算,得到第一相似概率。
再一种实施方式中,所述判断单元102在用于调用所述目标概率模型,根据所述第一概率向量和所述第二概率向量计算所述第一文本和所述第二文本属于不同相似文本集合的第二相似概率时,可具体用于:
调用所述目标概率模型对所述第一概率向量进行概率运算,得到第一中间概率,以及调用所述目标概率模型对所述第二概率向量进行概率运算,得到第二中间概率;
将所述第一中间概率和所述第二中间概率的乘积确定为第二相似概率。
再一种实施方式中,所述获取单元101还可用于:获取样本数据,所述样本数据包括至少一个文本集合,任一文本集合中包括至少两个文本。
所述文本相似性度量装置还可包括处理单元104,用于:针对所述样本数据中的任一文本集合,对所述文本集合的各个文本进行意图分类处理,得到所述文本集合的各个文本的概率向量;采用所述样本数据中的各文本集合的各个文本的概率向量进行模型参数训练,得到训练完成的目标参数;采用所述目标参数构建所述目标概率模型。
根据本发明的一个实施例,图1至图2所示的方法所涉及的各个步骤均可以是由图3所示的文本相似性度量装置中的各个单元来执行的。例如,图1中所示的步骤S101-S103可以分别由图3中所示的获取单元101、判断单元102和确定单元103来执行;又如,图2中所示的步骤S201可由图3中所示的获取单元101来执行,S202-S204可由图3中所示的处理单元104来执行,S205-S207可分别由图3中所示的获取单元101、判断单元102和确定单元103来执行。
需要说明的是,图3所示的文本相似性度量装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本发明的其它实施例中,文本相似性度量装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本发明的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图1至图2中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图3中所示的文本相似性度量装置设备,以及来实现本发明实施例的文本相似性度量方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
本发明实施例在对待处理的第一文本和第二文本进行相似性度量时,可以获取第一文本的第一概率向量和第二文本的第二概率向量。然后根据目标概率模型、第一概率向量和第二概率向量判断第一文本和所述第二文本是否属于同一相似文本集合;若属于,则确定第一文本和第二文本相似。本发明实施例不需要计算第一文本和第二文本之间的距离或者角度,可以避免因文本表达方式的影响,导致误判第一文本和第二文本之间的相似性,可以提高相似性度量结果的准确性。
请参见图4,是本发明实施例提供的一种用于文本相似性度量的终端的结构示意图。如图4所示的本实施例中的终端可以包括:一个或多个处理器201;一个或多个输入设备202,一个或多个输出设备203和存储器204。上述处理器201、输入设备202、输出设备203和存储器204通过总线连接。存储器204用于存储计算机程序,所述计算机程序包括程序指令,处理器201用于执行所述存储器204存储的程序指令。
在一种实施方式中,该处理器201可以是中央处理单元(Central ProcessingUnit,CPU),该处理器还可以是其他通用处理器,即微处理器或者任何常规的处理器。该存储器204可以包括只读存储器和随机存取存储器,并向处理器201提供指令和数据。因此,在此对于处理器201和存储器204不作限定。
在本发明实施例中,由处理器201加载并执行计算机存储介质中存放的一条或一条以上指令,以实现上述相应实施例中的方法的相应步骤;具体实现中,计算机存储介质中的至少一条指令由处理器201加载并执行如下步骤:
获取待处理的第一文本的第一概率向量,以及待处理的第二文本的第二概率向量;其中,所述第一概率向量为所述第一文本的第一意图类别所对应的概率向量,所述第二概率向量为所述第二文本的第二意图类别所对应的概率向量;
根据目标概率模型、所述第一概率向量和所述第二概率向量判断所述第一文本和所述第二文本是否属于同一相似文本集合;
若所述第一文本和所述第二文本属于同一相似文本集合,则确定所述第一文本和所述第二文本相似。
在一种实施方式中,在根据目标概率模型、所述第一概率向量和所述第二概率向量判断所述第一文本和所述第二文本是否属于同一相似文本集合时,所述一条或一条以上指令可由处理器201加载并具体执行:
调用目标概率模型,根据所述第一概率向量和所述第二概率向量计算所述第一文本和所述第二文本属于同一相似文本集合的第一相似概率;
调用所述目标概率模型,根据所述第一概率向量和所述第二概率向量计算所述第一文本和所述第二文本属于不同相似文本集合的第二相似概率;
根据所述第一相似概率和所述第二相似概率,判断所述第一文本和所述第二问是否属于同一相似文本集合。
再一种实施方式中,在根据所述第一相似概率和所述第二相似概率,判断所述第一文本和所述第二问是否属于同一相似文本集合时,所述一条或一条以上指令可由处理器201加载并具体执行:
根据所述第一相似概率和所述第二相似概率确定概率差值;
若所述概率差值大于预设阈值,则确定所述第一文本和所述第二文本属于同一相似文本集合;
若所述概率差值小于预设阈值,则确定所述第一文本和所述第二文本属于不同相似文本集合。
再一种实施方式中,在根据所述第一相似概率和所述第二相似概率确定概率差值时,所述一条或一条以上指令可由处理器201加载并具体执行:
对所述第一相似概率进行对数运算,得到第一对数值,以及对所述第二相似概率进行对数运算,得到第二对数值;
将所述第一对数值和所述第二对数值的差值确定为所述概率差值。
再一种实施方式中,在调用目标概率模型,根据所述第一概率向量和所述第二概率向量计算所述第一文本和所述第二文本属于同一相似文本集合的第一相似概率时,所述一条或一条以上指令可由处理器201加载并具体执行:
采用所述第一概率向量和所述第二概率向量构成目标概率向量组;
调用目标概率模型对所述目标概率向量组进行概率运算,得到第一相似概率。
再一种实施方式中,在调用所述目标概率模型,根据所述第一概率向量和所述第二概率向量计算所述第一文本和所述第二文本属于不同相似文本集合的第二相似概率时,所述一条或一条以上指令可由处理器201加载并具体执行:
调用所述目标概率模型对所述第一概率向量进行概率运算,得到第一中间概率,以及调用所述目标概率模型对所述第二概率向量进行概率运算,得到第二中间概率;
将所述第一中间概率和所述第二中间概率的乘积确定为第二相似概率。
再一种实施方式中,所述一条或一条以上指令还可由处理器201加载并具体执行:
获取样本数据,所述样本数据包括至少一个文本集合,任一文本集合中包括至少两个文本;
针对所述样本数据中的任一文本集合,对所述文本集合的各个文本进行意图分类处理,得到所述文本集合的各个文本的概率向量;
采用所述样本数据中的各文本集合的各个文本的概率向量进行模型参数训练,得到训练完成的目标参数;
采用所述目标参数构建所述目标概率模型。
需要说明的是,上述描述的终端和单元的具体工作过程,可以参考前述各个实施例中的相关描述,在此不再赘述。
本发明实施例在对待处理的第一文本和第二文本进行相似性度量时,可以获取第一文本的第一概率向量和第二文本的第二概率向量。然后根据目标概率模型、第一概率向量和第二概率向量判断第一文本和所述第二文本是否属于同一相似文本集合;若属于,则确定第一文本和第二文本相似。本发明实施例不需要计算第一文本和第二文本之间的距离或者角度,可以避免因文本表达方式的影响,导致误判第一文本和第二文本之间的相似性,可以提高相似性度量结果的准确性。
本发明实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是终端中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括终端中的内置存储介质,当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码),可以适于由处理器加载并执行上述方法实施例中的文本相似性度量方法。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种文本相似性度量方法,其特征在于,包括:
获取待处理的第一文本的第一概率向量,以及待处理的第二文本的第二概率向量;其中,所述第一概率向量为所述第一文本的第一意图类别所对应的概率向量,所述第二概率向量为所述第二文本的第二意图类别所对应的概率向量;
根据目标概率模型、所述第一概率向量和所述第二概率向量判断所述第一文本和所述第二文本是否属于同一相似文本集合;
若所述第一文本和所述第二文本属于同一相似文本集合,则确定所述第一文本和所述第二文本相似。
2.如权利要求1所述的方法,其特征在于,所述根据目标概率模型、所述第一概率向量和所述第二概率向量判断所述第一文本和所述第二文本是否属于同一相似文本集合,包括:
调用目标概率模型,根据所述第一概率向量和所述第二概率向量计算所述第一文本和所述第二文本属于同一相似文本集合的第一相似概率;
调用所述目标概率模型,根据所述第一概率向量和所述第二概率向量计算所述第一文本和所述第二文本属于不同相似文本集合的第二相似概率;
根据所述第一相似概率和所述第二相似概率,判断所述第一文本和所述第二问是否属于同一相似文本集合。
3.如权利要求2所述的方法,其特征在于,所述根据所述第一相似概率和所述第二相似概率,判断所述第一文本和所述第二问是否属于同一相似文本集合,包括:
根据所述第一相似概率和所述第二相似概率确定概率差值;
若所述概率差值大于预设阈值,则确定所述第一文本和所述第二文本属于同一相似文本集合;
若所述概率差值小于预设阈值,则确定所述第一文本和所述第二文本属于不同相似文本集合。
4.如权利要求3所述的方法,其特征在于,所述根据所述第一相似概率和所述第二相似概率确定概率差值,包括:
对所述第一相似概率进行对数运算,得到第一对数值,以及对所述第二相似概率进行对数运算,得到第二对数值;
将所述第一对数值和所述第二对数值的差值确定为所述概率差值。
5.如权利要求2所述的方法,其特征在于,所述调用目标概率模型,根据所述第一概率向量和所述第二概率向量计算所述第一文本和所述第二文本属于同一相似文本集合的第一相似概率,包括:
采用所述第一概率向量和所述第二概率向量构成目标概率向量组;
调用目标概率模型对所述目标概率向量组进行概率运算,得到第一相似概率。
6.如权利要求2所述的方法,其特征在于,所述调用所述目标概率模型,根据所述第一概率向量和所述第二概率向量计算所述第一文本和所述第二文本属于不同相似文本集合的第二相似概率,包括:
调用所述目标概率模型对所述第一概率向量进行概率运算,得到第一中间概率,以及调用所述目标概率模型对所述第二概率向量进行概率运算,得到第二中间概率;
将所述第一中间概率和所述第二中间概率的乘积确定为第二相似概率。
7.如权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
获取样本数据,所述样本数据包括至少一个文本集合,任一文本集合中包括至少两个文本;
针对所述样本数据中的任一文本集合,对所述文本集合的各个文本进行意图分类处理,得到所述文本集合的各个文本的概率向量;
采用所述样本数据中的各文本集合的各个文本的概率向量进行模型参数训练,得到训练完成的目标参数;
采用所述目标参数构建所述目标概率模型。
8.一种文本相似性度量装置,其特征在于,包括:
获取单元,用于获取待处理的第一文本的第一概率向量,以及待处理的第二文本的第二概率向量;其中,所述第一概率向量为所述第一文本的第一意图类别所对应的概率向量,所述第二概率向量为所述第二文本的第二意图类别所对应的概率向量;
判断单元,用于根据目标概率模型、所述第一概率向量和所述第二概率向量判断所述第一文本和所述第二文本是否属于同一相似文本集合;
确定单元,用于若所述第一文本和所述第二文本属于同一相似文本集合,则确定所述第一文本和所述第二文本相似。
9.一种用于文本相似性度量的终端,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一条或一条以上指令,所述一条或一条以上指令适于由处理器加载并执行如权利要求1-7任一项所述的方法。
CN201810925459.0A 2018-08-14 2018-08-14 文本相似性度量方法、装置、终端及存储介质 Active CN109284486B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810925459.0A CN109284486B (zh) 2018-08-14 2018-08-14 文本相似性度量方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810925459.0A CN109284486B (zh) 2018-08-14 2018-08-14 文本相似性度量方法、装置、终端及存储介质

Publications (2)

Publication Number Publication Date
CN109284486A true CN109284486A (zh) 2019-01-29
CN109284486B CN109284486B (zh) 2023-08-22

Family

ID=65183075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810925459.0A Active CN109284486B (zh) 2018-08-14 2018-08-14 文本相似性度量方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN109284486B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009026241A (ja) * 2007-07-23 2009-02-05 Ntt Data Corp 評価装置及び方法ならびにそのコンピュータプログラム
CN101587493A (zh) * 2009-06-29 2009-11-25 中国科学技术大学 文本分类方法
CN102681983A (zh) * 2011-03-07 2012-09-19 北京百度网讯科技有限公司 一种文本数据的对齐方法和装置
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN103294817A (zh) * 2013-06-13 2013-09-11 华东师范大学 一种基于类别分布概率的文本特征抽取方法
CN103699522A (zh) * 2013-12-13 2014-04-02 东软集团股份有限公司 基于混合主题的文本标注方法及系统
CN105260356A (zh) * 2015-10-10 2016-01-20 西安交通大学 基于多任务学习的中文交互文本情感与话题识别方法
CN105677873A (zh) * 2016-01-11 2016-06-15 中国电子科技集团公司第十研究所 基于领域知识模型的文本情报关联聚类汇集处理方法
US20160189047A1 (en) * 2014-12-30 2016-06-30 Yahoo! Inc. Method and System for Entity Linking
CN106202032A (zh) * 2016-06-24 2016-12-07 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其系统
CN107315731A (zh) * 2016-04-27 2017-11-03 北京京东尚科信息技术有限公司 文本相似度计算方法
CN107644101A (zh) * 2017-09-30 2018-01-30 百度在线网络技术(北京)有限公司 信息分类方法和装置、信息分类设备及计算机可读介质
CN107688829A (zh) * 2017-08-29 2018-02-13 湖南财政经济学院 一种基于支持向量机的识别系统及识别方法
CN108304480A (zh) * 2017-12-29 2018-07-20 东软集团股份有限公司 一种文本相似度确定方法、装置及设备

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009026241A (ja) * 2007-07-23 2009-02-05 Ntt Data Corp 評価装置及び方法ならびにそのコンピュータプログラム
CN101587493A (zh) * 2009-06-29 2009-11-25 中国科学技术大学 文本分类方法
CN102681983A (zh) * 2011-03-07 2012-09-19 北京百度网讯科技有限公司 一种文本数据的对齐方法和装置
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN103294817A (zh) * 2013-06-13 2013-09-11 华东师范大学 一种基于类别分布概率的文本特征抽取方法
CN103699522A (zh) * 2013-12-13 2014-04-02 东软集团股份有限公司 基于混合主题的文本标注方法及系统
US20160189047A1 (en) * 2014-12-30 2016-06-30 Yahoo! Inc. Method and System for Entity Linking
CN105260356A (zh) * 2015-10-10 2016-01-20 西安交通大学 基于多任务学习的中文交互文本情感与话题识别方法
CN105677873A (zh) * 2016-01-11 2016-06-15 中国电子科技集团公司第十研究所 基于领域知识模型的文本情报关联聚类汇集处理方法
CN107315731A (zh) * 2016-04-27 2017-11-03 北京京东尚科信息技术有限公司 文本相似度计算方法
CN106202032A (zh) * 2016-06-24 2016-12-07 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其系统
CN107688829A (zh) * 2017-08-29 2018-02-13 湖南财政经济学院 一种基于支持向量机的识别系统及识别方法
CN107644101A (zh) * 2017-09-30 2018-01-30 百度在线网络技术(北京)有限公司 信息分类方法和装置、信息分类设备及计算机可读介质
CN108304480A (zh) * 2017-12-29 2018-07-20 东软集团股份有限公司 一种文本相似度确定方法、装置及设备

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
SANTOSH KHASANVIS: "Self-Similar Magneto-Electric Nanocircuit Technology for Probabilistic Inference Engines", 《 NANOTECHNOLOGY》 *
林耿: "一种求解厌恶型p-中位问题的混合进化算法", 《浙江大学学报(理学版)》 *
梁志伟: "基于视觉词典的单目视觉闭环检测算法", 《模式识别与人工智能》 *
程铃钫: "符号序列的概率向量聚类方法", 《计算机应用研究》 *
罗海蛟: "基于改进的LDA模型的中文主观题自动评分研究", 《计算机科学》 *
覃勋辉: "一种基于梯度的直线段检测算法", 《光子学报》 *

Also Published As

Publication number Publication date
CN109284486B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
Zhu et al. Heterogeneous hypergraph embedding for document recommendation
US9122681B2 (en) Systems and methods for classifying electronic information using advanced active learning techniques
US20230385553A1 (en) Techniques to add smart device information to machine learning for increased context
van Stein et al. Optimally weighted cluster kriging for big data regression
CN112633973A (zh) 一种商品推荐方法及其相关设备
Puccetti et al. Technology identification from patent texts: A novel named entity recognition method
Fernandes et al. TableDet: An end-to-end deep learning approach for table detection and table image classification in data sheet images
Sarwar et al. A scalable framework for stylometric analysis of multi-author documents
Zhao et al. Safe semi-supervised classification algorithm combined with active learning sampling strategy
Suresh Kumar et al. Sentiment Analysis of Short Texts Using SVMs and VSMs-Based Multiclass Semantic Classification
CN113011689B (zh) 软件开发工作量的评估方法、装置及计算设备
Chen et al. A hybrid approach for question retrieval in community question answerin
US20210117448A1 (en) Iterative sampling based dataset clustering
WO2020170020A1 (en) Feedback mining with domain-specific modeling
Siva Subramanian et al. Optimizıng Naive Bayes probability estimation in customer analysis using hybrid variable selection
CN113569578B (zh) 一种用户意图识别方法、装置和计算机设备
CN116048463A (zh) 基于标签管理的需求项内容智能推荐方法及装置
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
Zhang et al. Stopping criterion for active learning with model stability
CN109284486A (zh) 文本相似性度量方法、装置、终端及存储介质
Siddikk et al. FakeTouch: machine learning based framework for detecting fake news
Adelfio Change-point detection for variance piecewise constant models
Padhi et al. Feature Enhancement-Based Stock Prediction Strategy to Forecast the Fiscal Market
Lin et al. A Simple and Convex Formulation for Multi-label Feature Selection
Behnaz et al. A software architecture for enabling statistical learning on big data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant