CN111814456A - 一种基于动词的中文文本相似度计算方法 - Google Patents

一种基于动词的中文文本相似度计算方法 Download PDF

Info

Publication number
CN111814456A
CN111814456A CN202010450674.7A CN202010450674A CN111814456A CN 111814456 A CN111814456 A CN 111814456A CN 202010450674 A CN202010450674 A CN 202010450674A CN 111814456 A CN111814456 A CN 111814456A
Authority
CN
China
Prior art keywords
text
feature
semantic
similarity
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010450674.7A
Other languages
English (en)
Inventor
陈凯玲
顾闻
史松峰
韩东
徐雪莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Shanghai Electric Power Co Ltd
Original Assignee
State Grid Shanghai Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Shanghai Electric Power Co Ltd filed Critical State Grid Shanghai Electric Power Co Ltd
Priority to CN202010450674.7A priority Critical patent/CN111814456A/zh
Publication of CN111814456A publication Critical patent/CN111814456A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于动词的中文文本相似度计算方法,包括以下步骤:S1:获取需要进行相似度计算的第一文本和第二文本,并进行预处理;S2:分别对预处理完成的第一文本和第二文本的提取动词序列;S3:基于动词序列计算第一文本与第二文本的语法相似度f1;S4:基于预处理完成的第一文本和第二文本,计算两文本的语义相似度f2;S5:结合语法相似度和语义相似度计算第一文本和第二文本的文本间相似度f,与现有技术相比,本发明具有提高计算精确度和计算速度等优点。

Description

一种基于动词的中文文本相似度计算方法
技术领域
本发明涉及语义分析技术领域,尤其是涉及一种基于动词的中文文本相似度计算方法。
背景技术
在信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统和文本挖掘等领域,是一个非常基础而关键的问题,长期以来一直是人们研究的热点和难点。
近年来,一些方法提出利用文本相似度计算对已签订的合同进行智能评审,实现对合同文本中潜在的法律风险进行自动预警,使中文文本相似度计算方法的应用得到进一步的扩展应用,也对中文文本相似度计算提出了新的要求。
目前文本相似度计算方法包括基于字符串的方法、基于本体的方法和基于语料库的方法等,其中基于字符串的方法仅从字面上考虑了字符串的匹配或者共现,没有考虑到文本中包含的语义信息,基于本体的方法受限于人类构建的本体规模,不在本体中的词语无法计算相似度,而基于语料库的方法通过神经网络训练词向量,把句子表示成向量形式,在一定程度上能够捕获文本中的语法和语义的信息。
但是这些方法均没有结合汉语语言学以及自然语言处理的规律与经验,且没有有效结合,不能高效、准确地进行中文文本相似度的计算。而合同评审关系到签订双方的重要利益,如电网工程建设中,合同条款的制定是十分重要的环节,如果此类条款存在责任不明确等问题,就会存在引起纠纷并导致损失等风险,需要进行准确精细的审批。所以目前的中文文本相似度计算方法不能适用于合同智能评审,需要设计一种新的中文文本相似度计算方法,高效、准确地进行中文文本相似度的计算。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种提高计算精确度和计算速度的基于动词的中文文本相似度计算方法。
本发明的目的可以通过以下技术方案来实现:
一种基于动词的中文文本相似度计算方法,包括以下步骤:
S1:获取需要进行相似度计算的第一文本和第二文本,并进行预处理;
S2:分别对预处理完成的第一文本和第二文本的提取动词序列;
S3:基于动词序列计算第一文本与第二文本的语法相似度f1
S4:基于预处理完成的第一文本和第二文本,计算两文本的语义相似度f2
S5:结合语法相似度和语义相似度计算第一文本和第二文本的文本间相似度f。
进一步地,所述的预处理具体包括:对第一文本和第二文本进行分词,并去除停用词。
在分词的过程中,我们可以发现一些对文本内容意义不大但出现频率很高的词、符号和标点等。如“这、的、也、对、了、吗”等词基本上都会出现在任何一篇汉语文章中,但把这些词运用到文章中似乎并没有什么意义,它们在文章中的地位也变得可有可无,去除它们也并不影响文章所要表达的具体含义以及它的可读性。因此这些词就作为停用词在预处理的过程中进行取出,本发明采用四川大学机器智能实验室的停用词库,通过构造一个去除词表(Remove Words List),过滤掉这些无意义词。
进一步地,所述的步骤S3具体包括:
S31:将第一文本和第二文本的动词序列分别作为第一文本特征字符串和第二文本特征字符串;
S32:获取第一文本特征字符串到第二文本特征字符串的公共子串个数,记为第一公共子串个数;
S33:获取第二文本特征字符串到第一文本特征字符串的公共子串个数,记为第二公共子串个数;
S34:选取第一公共子串个数和第二公共子串个数中最大公共子串个数,作为实际公共子串个数;
S35:利用实际公共子串个数,计算第一文本与第二文本的语法相似度f1
更进一步地,所述的语法相似度f1的计算公式为:
Figure BDA0002507568940000021
其中,c为实际公共子串个数,a为第一文本的动词序列中动词的个数,b为第二文本的动词序列中动词的个数。
进一步地,所述的步骤S4具体包括:
S41:基于语义向量空间模型,构建语义主题空间P中的特征项向量表;
S42:分别提取第一文本和第二文本中所有的特征项,得到第一文本特征项集合和第二文本特征项集合;
S43:分别统计第一文本特征项集合和第二文本特征项集合中各特征项的出现次数;
S44:利用特征项向量表,获取第一文本特征项集合和第二文本特征项集合中各特征项对应的特征项向量;
S45:根据特征项向量,计算第一文本对应的特征向量和第二文本对应的特征向量,并分别做标准化处理,得到第一文本特征向量和第二文本特征向量;
S46:根据第一文本特征向量和第二文本特征向量,计算第一文本和第二文本的语义相似度f2
更进一步地,所述的第一文本对应的特征向量
Figure BDA0002507568940000031
的计算式为:
Figure BDA0002507568940000032
其中,fi,k为第一文本特征项集合中第k个特征项出现的次数,n为第一文本中所有特征项的个数,
Figure BDA0002507568940000033
为第一文本特征项集合中第k个特征项在语义主题空间P中对应的特征项向量;
所述的第二文本对应的特征向量
Figure BDA0002507568940000034
的计算式为:
Figure BDA0002507568940000035
其中,fj,k为第二文本特征项集合中第k个特征项出现的次数,m为第二文本中所有特征项的个数,
Figure BDA0002507568940000036
第二文本特征项集合中第k个特征项在语义主题空间P中对应的特征项向量。
更进一步地,所述的语义相似度f2的计算式为:
Figure BDA0002507568940000037
Figure BDA0002507568940000041
Figure BDA0002507568940000042
其中,
Figure BDA0002507568940000043
为第一文本特征向量,
Figure BDA0002507568940000044
为第二文本特征向量,wi,j为第一文本特征向量与第二文本特征向量之间的夹角。
更进一步地,所述的步骤S41具体包括:
S411:确定语义向量空间模型中使用的语义主题集合VT={τ12,…,τd},确定语义主题空间P;
S412:确定语义向量空间模型中非语义主题的文本特征项,记为集合VN
S413:将语义主题和特征项表示为集合V,以集合的元素为结点,元素之间的语义关系为边,组织语义关联图G=<V,E>;
S414:根据语义关联图G=<V,E>,确定所有语义主题对应的向量;
S415:计算各个特征项的向量表示,构建语义主题空间P中的特征项向量表。
进一步优选地,所述的特征项为文本中的各个词语。
进一步地,所述的文本间相似度计算式为:
f=α*f1+β*f2
其中,α为语法加权系数,其值优选为0.4,β为语义加权系数,其值优选为0.6,该值根据文中语法结构、语义结构在度量文本相似性时的权重确定。
与现有技术相比,本发明具有以下优点:
1)本发明通过引入“动词中心词”的概念,扩展停用词的范围,将文本中去掉停用词后的动词组成动词序列作为文本特征串,结合串匹配算法,计算出中文文本间语法相似度f1,算法简单,提高计算速度;
2)本发明根据IFIDF方法提取两篇文本的特征项,进行权重计算,并利用语义主题作为向量空间的维度提取文本的特征向量,计算出语义相似性f2,有效解决简单以词语作为文本的特征项而忽略近义词和同义异形词替换的问题,有效提高计算结果的精准度;
3)本发明结合文本间语法相似度f1和语义相似性f2得到文本间相似度f作为最终文本相似度的结果,从语法和语义两方面同时考虑,提高文本相似度计算的精确度。
附图说明
图1为本发明的流程示意图;
图2为语法相似度计算过程示意图;
图3为语义相似度计算过程示意图;
图4为实施例中文本A到文本B的公共子串个数示意图;
图5为实施例中文本B到文本A的公共子串个数示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
实施例
如图1所示,本发明提供一种基于动词的中文文本相似度计算方法,包括以下步骤:
S1:获取需要进行相似度计算的第一文本和第二文本,并进行预处理;
S2:分别对预处理完成的第一文本和第二文本的提取动词序列;
S3:基于动词序列计算第一文本与第二文本的语法相似度f1
S4:基于预处理完成的第一文本和第二文本,计算两文本的语义相似度f2
S5:结合语法相似度和语义相似度计算第一文本和第二文本的文本间相似度f。
其中,预处理具体包括:对第一文本和第二文本进行分词,并去除停用词。
本实施例中,在分词时使用开源中文分词组件——盘古分词,利用第三方库分词软件对两文本进行分词。分词时,首先将一些无意义的词语、对文本可有可无的词语放入提前构造的去除词表,便于后续加载搜狗词库计算词频以及权重。
我们可以发现一些对文本内容意义不大但出现频率很高的词、符号和标点等。如“这、的、也、对、了、吗”等词基本上都会出现在任何一篇汉语文章中,但把这些词运用到文章中似乎并没有什么意义,它们在文章中的地位也变得可有可无,去除它们也并不影响文章所要表达的具体含义以及它的可读性。因此这些词就作为停用词在预处理的过程中进行取出,本实施例中,采用四川大学机器智能实验室的停用词库,通过构造一个去除词表(Remove Words List),过滤掉这些无意义词。
本发明一共包括三大部分,一是通过提取动词,对两篇文本进行语法相似度f1的计算,二是通过提取特征项,利用TF-IDF加权法进行语义相似度f2的计算,最后是将语法相似度f1和语义相似度f2结合,得到文本间相似度f。下面分三部分进行详细描述。
(一)通过提取动词,对两篇文本进行语法相似度f1的计算
吕叔湘在其代表著《中国文法要略》中构建了以动词为中心的句法模型。在分析句子时,句子中心是表示动作的动词,而表示动作之所由起、所终止以及所关涉的各个方面的名词,都是对这个动词的补充,因而统统可称为“补词”。于是,句子中除动词这个中心以外,就有了“起词”、“止词”、“受词”、“关切补词”、“交与补词”、“凭借补词”等各种“补词”。也就是说,句子表达的意思体现在句中的中心动词上,因此段落中所有句子的中心动词组成的序列就体现了段落的中心意思。同理,文本中所有句子的中心动词组成的序列可以概括全文的中心意思。这样,动词序列不仅反映了文本中发生的动作,而且描述了动作的发生顺序,因此可以用动词序列作为文章的特征串。两个文本间特征串的相似性反映了文本间的相似性。
其具体步骤包括:
S31:将第一文本和第二文本的动词序列分别作为第一文本特征字符串和第二文本特征字符串;
S32:获取第一文本特征字符串到第二文本特征字符串的公共子串个数,记为第一公共子串个数;
S33:获取第二文本特征字符串到第一文本特征字符串的公共子串个数,记为第二公共子串个数;
S34:选取第一公共子串个数和第二公共子串个数中最大公共子串个数,作为实际公共子串个数;
S35:利用实际公共子串个数,计算第一文本与第二文本的语法相似度f1
如图2所示,假定两个文本分别为文本A和文本B,在分别获得两个文本的动词序列后,可以将动词序列看作一个字符串,得到文本A特征字符串和文本B特征字符串,两个动词序列的相似性可以通过计算两个特征字符串的公共子串的个数来获得,假设文本A的动词序列为V1、V2、V3、V2和V4,文本B的动词序列为V1、V3、V2和V4。则文本A特征字符串到文本B特征字符串的公共子串个数如图4所示,文本B特征字符串到文本A特征字符串公共子串的个数如图5所示。由图4和图5可得,文本A特征字符串到文本B特征字符串的公共子串个数为3,文本B特征字符串到文本A特征字符串的公共子串个数为4,取两者中大的公共子串个数作为实际公共子串个数,得到实际公共子串个数为4。
最后通过语法相似度f1的计算公式计算,其计算公式为:
Figure BDA0002507568940000071
其中,c为实际公共子串个数,a为第一文本的动词序列中动词的个数,b为第二文本的动词序列中动词的个数。
(二)通过提取特征项,利用TF-IDF加权法进行语义相似度f2的计算
度量语义相似性可以参考信息检索中的向量模型。向量空间模型的基本思想是以向量来表示文本,可以选择字、词语或者词组作为特征项,本实施例中,优选选择词语作为特征项,同时用词语的相对词频表示向量的分量。
VSM的TF-IDF相似度计算方法,以词语作为文本的特征项,忽略近义词和同义异形词的替换问题,使得计算结果的精准度降低。利用语义词典可以有效解决这个问题。根据语义词典提供的相关词语概念的信息,作为词语相似度的度量,常用的语义词典主要有同义词词林和知网。以语义主题作为向量空间的维度提取特征向量,采用基于语料库统计的方法,首先需要选择一组词的特征,然后将每个词与这组词的特征进行比较,得到一个相关特征向量,通过计算向量的夹角余弦来计算相似度,其具体步骤包括:
S41:基于语义向量空间模型,构建语义主题空间P中的特征项向量表;
其中S41具体包括:
S411:确定语义向量空间模型中使用的语义主题集合VT={τ12,…,τd},确定语义主题空间P;
S412:确定语义向量空间模型中非语义主题的文本特征项,记为集合VN
S413:将语义主题和特征项表示为集合V,以集合的元素为结点,元素之间的语义关系为边,组织语义关联图G=<V,E>;
S414:根据语义关联图G=<V,E>,确定所有语义主题对应的向量;
S415:计算各个特征项的向量表示,构建语义主题空间P中的特征项向量表。
S42:分别提取第一文本和第二文本中所有的特征项,得到第一文本特征项集合和第二文本特征项集合;
S43:分别统计第一文本特征项集合和第二文本特征项集合中各特征项的出现次数;
S44:利用特征项向量表,获取第一文本特征项集合和第二文本特征项集合中各特征项对应的特征项向量;
S45:根据特征项向量,计算第一文本对应的特征向量和第二文本对应的特征向量,并分别做标准化处理,得到第一文本特征向量和第二文本特征向量;
第一文本对应的特征向量
Figure BDA0002507568940000081
的计算式为:
Figure BDA0002507568940000082
其中,fi,k为第一文本特征项集合中第k个特征项出现的次数,n为第一文本中所有特征项的个数,
Figure BDA0002507568940000083
为第一文本特征项集合中第k个特征项在语义主题空间P中对应的特征项向量;
第二文本对应的特征向量
Figure BDA0002507568940000084
的计算式为:
Figure BDA0002507568940000085
其中,fj,k为第二文本特征项集合中第k个特征项出现的次数,m为第二文本中所有特征项的个数,
Figure BDA0002507568940000086
第二文本特征项集合中第k个特征项在语义主题空间P中对应的特征项向量。
S46:根据第一文本特征向量和第二文本特征向量,计算第一文本和第二文本的语义相似度f2
语义相似度f2的计算式为:
Figure BDA0002507568940000087
Figure BDA0002507568940000088
Figure BDA0002507568940000091
其中,
Figure BDA0002507568940000092
为第一文本特征向量,
Figure BDA0002507568940000093
为第二文本特征向量,wi,j为第一文本特征向量与第二文本特征向量之间的夹角。
(三)将语法相似度f1和语义相似度f2结合,得到文本间相似度f
在获得了两个文本的语义相似度f2和语法相似度f1之后,需要计算总的相似度,即文本间相似度f,其计算式为:
f=α*f1+β*f2
其中,α为语法加权系数,其值优选为0.4,β为语义加权系数,其值优选为0.6,该值根据文中语法结构、语义结构在度量文本相似性时的权重确定。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于动词的中文文本相似度计算方法,其特征在于,包括以下步骤:
S1:获取需要进行相似度计算的第一文本和第二文本,并进行预处理;
S2:分别对预处理完成的第一文本和第二文本的提取动词序列;
S3:基于动词序列计算第一文本与第二文本的语法相似度f1
S4:基于预处理完成的第一文本和第二文本,计算两文本的语义相似度f2
S5:结合语法相似度和语义相似度计算第一文本和第二文本的文本间相似度f。
2.根据权利要求1所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的预处理具体包括:
对第一文本和第二文本进行分词,并去除停用词。
3.根据权利要求1所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的步骤S3具体包括:
S31:将第一文本和第二文本的动词序列分别作为第一文本特征字符串和第二文本特征字符串;
S32:获取第一文本特征字符串到第二文本特征字符串的公共子串个数,记为第一公共子串个数;
S33:获取第二文本特征字符串到第一文本特征字符串的公共子串个数,记为第二公共子串个数;
S34:选取第一公共子串个数和第二公共子串个数中最大公共子串个数,作为实际公共子串个数;
S35:利用实际公共子串个数,计算第一文本与第二文本的语法相似度f1
4.根据权利要求3所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的语法相似度f1的计算公式为:
Figure FDA0002507568930000011
其中,c为实际公共子串个数,a为第一文本的动词序列中动词的个数,b为第二文本的动词序列中动词的个数。
5.根据权利要求4所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的步骤S4具体包括:
S41:基于语义向量空间模型,构建语义主题空间P中的特征项向量表;
S42:分别提取第一文本和第二文本中所有的特征项,得到第一文本特征项集合和第二文本特征项集合;
S43:分别统计第一文本特征项集合和第二文本特征项集合中各特征项的出现次数;
S44:利用特征项向量表,获取第一文本特征项集合和第二文本特征项集合中各特征项对应的特征项向量;
S45:根据特征项向量,计算第一文本对应的特征向量和第二文本对应的特征向量,并分别做标准化处理,得到第一文本特征向量和第二文本特征向量;
S46:根据第一文本特征向量和第二文本特征向量,计算第一文本和第二文本的语义相似度f2
6.根据权利要求5所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的第一文本对应的特征向量
Figure FDA0002507568930000021
的计算式为:
Figure FDA0002507568930000022
其中,fi,k为第一文本特征项集合中第k个特征项出现的次数,n为第一文本中所有特征项的个数,
Figure FDA0002507568930000023
为第一文本特征项集合中第k个特征项在语义主题空间P中对应的特征项向量;
所述的第二文本对应的特征向量
Figure FDA0002507568930000024
的计算式为:
Figure FDA0002507568930000025
其中,fj,k为第二文本特征项集合中第k个特征项出现的次数,m为第二文本中所有特征项的个数,
Figure FDA0002507568930000026
第二文本特征项集合中第k个特征项在语义主题空间P中对应的特征项向量。
7.根据权利要求6所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的语义相似度f2的计算式为:
Figure FDA0002507568930000027
Figure FDA0002507568930000031
Figure FDA0002507568930000032
其中,
Figure FDA0002507568930000033
为第一文本特征向量,
Figure FDA0002507568930000034
为第二文本特征向量,wi,j为第一文本特征向量与第二文本特征向量之间的夹角。
8.根据权利要求5所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的步骤S41具体包括:
S411:确定语义向量空间模型中使用的语义主题集合VT={τ12,…,τd},确定语义主题空间P;
S412:确定语义向量空间模型中非语义主题的文本特征项,记为集合VN
S413:将语义主题和特征项表示为集合V,以集合的元素为结点,元素之间的语义关系为边,组织语义关联图G=<V,E>;
S414:根据语义关联图G=<V,E>,确定所有语义主题对应的向量;
S415:计算各个特征项的向量表示,构建语义主题空间P中的特征项向量表。
9.根据权利要求8所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的特征项为文本中的各个词语。
10.根据权利要求7所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的文本间相似度计算式为:
f=α*f1+β*f2
其中,α为语法加权系数,β为语义加权系数。
CN202010450674.7A 2020-05-25 2020-05-25 一种基于动词的中文文本相似度计算方法 Pending CN111814456A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010450674.7A CN111814456A (zh) 2020-05-25 2020-05-25 一种基于动词的中文文本相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010450674.7A CN111814456A (zh) 2020-05-25 2020-05-25 一种基于动词的中文文本相似度计算方法

Publications (1)

Publication Number Publication Date
CN111814456A true CN111814456A (zh) 2020-10-23

Family

ID=72848023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010450674.7A Pending CN111814456A (zh) 2020-05-25 2020-05-25 一种基于动词的中文文本相似度计算方法

Country Status (1)

Country Link
CN (1) CN111814456A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883165A (zh) * 2021-03-16 2021-06-01 山东亿云信息技术有限公司 一种基于语义理解的智能全文检索方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012043294A (ja) * 2010-08-20 2012-03-01 Kddi Corp 意味的に類似している語対を二項関係に分類する二項関係分類プログラム、方法及び装置
CN108549634A (zh) * 2018-04-09 2018-09-18 北京信息科技大学 一种中文专利文本相似度计算方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012043294A (ja) * 2010-08-20 2012-03-01 Kddi Corp 意味的に類似している語対を二項関係に分類する二項関係分類プログラム、方法及び装置
CN108549634A (zh) * 2018-04-09 2018-09-18 北京信息科技大学 一种中文专利文本相似度计算方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘小军;赵栋;姚卫东;: "一种用于中文文本查重的双因子相似度算法", 计算机仿真, no. 12, pages 2 - 3 *
黄菊;: "一种基于语义向量空间模型的作业查重算法", 电子科学技术, no. 06, pages 2 - 3 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883165A (zh) * 2021-03-16 2021-06-01 山东亿云信息技术有限公司 一种基于语义理解的智能全文检索方法及系统

Similar Documents

Publication Publication Date Title
Suleiman et al. Deep learning based technique for plagiarism detection in Arabic texts
Oudah et al. NERA 2.0: Improving coverage and performance of rule-based named entity recognition for Arabic
Ulčar et al. High quality ELMo embeddings for seven less-resourced languages
CN108073571B (zh) 一种多语言文本质量评估方法及系统、智能文本处理系统
CN113761890B (zh) 一种基于bert上下文感知的多层级语义信息检索方法
Gao et al. Named entity recognition method of Chinese EMR based on BERT-BiLSTM-CRF
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
Al-Harbi et al. Lexical disambiguation in natural language questions (nlqs)
Wadud et al. Text coherence analysis based on misspelling oblivious word embeddings and deep neural network
Shafi et al. UNLT: Urdu natural language toolkit
Zhang et al. Chinese-English mixed text normalization
Tahrat et al. Text2geo: from textual data to geospatial information
Sornlertlamvanich et al. Thai Named Entity Recognition Using BiLSTM-CNN-CRF Enhanced by TCC
Aejas et al. Named entity recognition for cultural heritage preservation
CN111814456A (zh) 一种基于动词的中文文本相似度计算方法
pal Singh et al. Naive Bayes classifier for word sense disambiguation of Punjabi language
Khoufi et al. Chunking Arabic texts using conditional random fields
Tongtep et al. Multi-stage automatic NE and pos annotation using pattern-based and statistical-based techniques for thai corpus construction
Abdolahi et al. A new method for sentence vector normalization using word2vec
Rebala et al. Natural language processing
Jamwal Named entity recognition for Dogri using ML
Prasad et al. Lexicon based extraction and opinion classification of associations in text from Hindi weblogs
Bafna et al. BaSa: A Technique to Identify Context based Common Tokens for Hindi Verses and Proses
Bharti et al. Sarcasm as a contradiction between a tweet and its temporal facts: a pattern-based approach
Liu et al. Domain phrase identification using atomic word formation in Chinese text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination