CN111814456A - 一种基于动词的中文文本相似度计算方法 - Google Patents
一种基于动词的中文文本相似度计算方法 Download PDFInfo
- Publication number
- CN111814456A CN111814456A CN202010450674.7A CN202010450674A CN111814456A CN 111814456 A CN111814456 A CN 111814456A CN 202010450674 A CN202010450674 A CN 202010450674A CN 111814456 A CN111814456 A CN 111814456A
- Authority
- CN
- China
- Prior art keywords
- text
- feature
- semantic
- similarity
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 86
- 238000012545 processing Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000295 complement effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Technology Law (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于动词的中文文本相似度计算方法,包括以下步骤:S1:获取需要进行相似度计算的第一文本和第二文本,并进行预处理;S2:分别对预处理完成的第一文本和第二文本的提取动词序列;S3:基于动词序列计算第一文本与第二文本的语法相似度f1;S4:基于预处理完成的第一文本和第二文本,计算两文本的语义相似度f2;S5:结合语法相似度和语义相似度计算第一文本和第二文本的文本间相似度f,与现有技术相比,本发明具有提高计算精确度和计算速度等优点。
Description
技术领域
本发明涉及语义分析技术领域,尤其是涉及一种基于动词的中文文本相似度计算方法。
背景技术
在信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统和文本挖掘等领域,是一个非常基础而关键的问题,长期以来一直是人们研究的热点和难点。
近年来,一些方法提出利用文本相似度计算对已签订的合同进行智能评审,实现对合同文本中潜在的法律风险进行自动预警,使中文文本相似度计算方法的应用得到进一步的扩展应用,也对中文文本相似度计算提出了新的要求。
目前文本相似度计算方法包括基于字符串的方法、基于本体的方法和基于语料库的方法等,其中基于字符串的方法仅从字面上考虑了字符串的匹配或者共现,没有考虑到文本中包含的语义信息,基于本体的方法受限于人类构建的本体规模,不在本体中的词语无法计算相似度,而基于语料库的方法通过神经网络训练词向量,把句子表示成向量形式,在一定程度上能够捕获文本中的语法和语义的信息。
但是这些方法均没有结合汉语语言学以及自然语言处理的规律与经验,且没有有效结合,不能高效、准确地进行中文文本相似度的计算。而合同评审关系到签订双方的重要利益,如电网工程建设中,合同条款的制定是十分重要的环节,如果此类条款存在责任不明确等问题,就会存在引起纠纷并导致损失等风险,需要进行准确精细的审批。所以目前的中文文本相似度计算方法不能适用于合同智能评审,需要设计一种新的中文文本相似度计算方法,高效、准确地进行中文文本相似度的计算。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种提高计算精确度和计算速度的基于动词的中文文本相似度计算方法。
本发明的目的可以通过以下技术方案来实现:
一种基于动词的中文文本相似度计算方法,包括以下步骤:
S1:获取需要进行相似度计算的第一文本和第二文本,并进行预处理;
S2:分别对预处理完成的第一文本和第二文本的提取动词序列;
S3:基于动词序列计算第一文本与第二文本的语法相似度f1;
S4:基于预处理完成的第一文本和第二文本,计算两文本的语义相似度f2;
S5:结合语法相似度和语义相似度计算第一文本和第二文本的文本间相似度f。
进一步地,所述的预处理具体包括:对第一文本和第二文本进行分词,并去除停用词。
在分词的过程中,我们可以发现一些对文本内容意义不大但出现频率很高的词、符号和标点等。如“这、的、也、对、了、吗”等词基本上都会出现在任何一篇汉语文章中,但把这些词运用到文章中似乎并没有什么意义,它们在文章中的地位也变得可有可无,去除它们也并不影响文章所要表达的具体含义以及它的可读性。因此这些词就作为停用词在预处理的过程中进行取出,本发明采用四川大学机器智能实验室的停用词库,通过构造一个去除词表(Remove Words List),过滤掉这些无意义词。
进一步地,所述的步骤S3具体包括:
S31:将第一文本和第二文本的动词序列分别作为第一文本特征字符串和第二文本特征字符串;
S32:获取第一文本特征字符串到第二文本特征字符串的公共子串个数,记为第一公共子串个数;
S33:获取第二文本特征字符串到第一文本特征字符串的公共子串个数,记为第二公共子串个数;
S34:选取第一公共子串个数和第二公共子串个数中最大公共子串个数,作为实际公共子串个数;
S35:利用实际公共子串个数,计算第一文本与第二文本的语法相似度f1。
更进一步地,所述的语法相似度f1的计算公式为:
其中,c为实际公共子串个数,a为第一文本的动词序列中动词的个数,b为第二文本的动词序列中动词的个数。
进一步地,所述的步骤S4具体包括:
S41:基于语义向量空间模型,构建语义主题空间P中的特征项向量表;
S42:分别提取第一文本和第二文本中所有的特征项,得到第一文本特征项集合和第二文本特征项集合;
S43:分别统计第一文本特征项集合和第二文本特征项集合中各特征项的出现次数;
S44:利用特征项向量表,获取第一文本特征项集合和第二文本特征项集合中各特征项对应的特征项向量;
S45:根据特征项向量,计算第一文本对应的特征向量和第二文本对应的特征向量,并分别做标准化处理,得到第一文本特征向量和第二文本特征向量;
S46:根据第一文本特征向量和第二文本特征向量,计算第一文本和第二文本的语义相似度f2。
更进一步地,所述的语义相似度f2的计算式为:
更进一步地,所述的步骤S41具体包括:
S411:确定语义向量空间模型中使用的语义主题集合VT={τ1,τ2,…,τd},确定语义主题空间P;
S412:确定语义向量空间模型中非语义主题的文本特征项,记为集合VN;
S413:将语义主题和特征项表示为集合V,以集合的元素为结点,元素之间的语义关系为边,组织语义关联图G=<V,E>;
S414:根据语义关联图G=<V,E>,确定所有语义主题对应的向量;
S415:计算各个特征项的向量表示,构建语义主题空间P中的特征项向量表。
进一步优选地,所述的特征项为文本中的各个词语。
进一步地,所述的文本间相似度计算式为:
f=α*f1+β*f2
其中,α为语法加权系数,其值优选为0.4,β为语义加权系数,其值优选为0.6,该值根据文中语法结构、语义结构在度量文本相似性时的权重确定。
与现有技术相比,本发明具有以下优点:
1)本发明通过引入“动词中心词”的概念,扩展停用词的范围,将文本中去掉停用词后的动词组成动词序列作为文本特征串,结合串匹配算法,计算出中文文本间语法相似度f1,算法简单,提高计算速度;
2)本发明根据IFIDF方法提取两篇文本的特征项,进行权重计算,并利用语义主题作为向量空间的维度提取文本的特征向量,计算出语义相似性f2,有效解决简单以词语作为文本的特征项而忽略近义词和同义异形词替换的问题,有效提高计算结果的精准度;
3)本发明结合文本间语法相似度f1和语义相似性f2得到文本间相似度f作为最终文本相似度的结果,从语法和语义两方面同时考虑,提高文本相似度计算的精确度。
附图说明
图1为本发明的流程示意图;
图2为语法相似度计算过程示意图;
图3为语义相似度计算过程示意图;
图4为实施例中文本A到文本B的公共子串个数示意图;
图5为实施例中文本B到文本A的公共子串个数示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
实施例
如图1所示,本发明提供一种基于动词的中文文本相似度计算方法,包括以下步骤:
S1:获取需要进行相似度计算的第一文本和第二文本,并进行预处理;
S2:分别对预处理完成的第一文本和第二文本的提取动词序列;
S3:基于动词序列计算第一文本与第二文本的语法相似度f1;
S4:基于预处理完成的第一文本和第二文本,计算两文本的语义相似度f2;
S5:结合语法相似度和语义相似度计算第一文本和第二文本的文本间相似度f。
其中,预处理具体包括:对第一文本和第二文本进行分词,并去除停用词。
本实施例中,在分词时使用开源中文分词组件——盘古分词,利用第三方库分词软件对两文本进行分词。分词时,首先将一些无意义的词语、对文本可有可无的词语放入提前构造的去除词表,便于后续加载搜狗词库计算词频以及权重。
我们可以发现一些对文本内容意义不大但出现频率很高的词、符号和标点等。如“这、的、也、对、了、吗”等词基本上都会出现在任何一篇汉语文章中,但把这些词运用到文章中似乎并没有什么意义,它们在文章中的地位也变得可有可无,去除它们也并不影响文章所要表达的具体含义以及它的可读性。因此这些词就作为停用词在预处理的过程中进行取出,本实施例中,采用四川大学机器智能实验室的停用词库,通过构造一个去除词表(Remove Words List),过滤掉这些无意义词。
本发明一共包括三大部分,一是通过提取动词,对两篇文本进行语法相似度f1的计算,二是通过提取特征项,利用TF-IDF加权法进行语义相似度f2的计算,最后是将语法相似度f1和语义相似度f2结合,得到文本间相似度f。下面分三部分进行详细描述。
(一)通过提取动词,对两篇文本进行语法相似度f1的计算
吕叔湘在其代表著《中国文法要略》中构建了以动词为中心的句法模型。在分析句子时,句子中心是表示动作的动词,而表示动作之所由起、所终止以及所关涉的各个方面的名词,都是对这个动词的补充,因而统统可称为“补词”。于是,句子中除动词这个中心以外,就有了“起词”、“止词”、“受词”、“关切补词”、“交与补词”、“凭借补词”等各种“补词”。也就是说,句子表达的意思体现在句中的中心动词上,因此段落中所有句子的中心动词组成的序列就体现了段落的中心意思。同理,文本中所有句子的中心动词组成的序列可以概括全文的中心意思。这样,动词序列不仅反映了文本中发生的动作,而且描述了动作的发生顺序,因此可以用动词序列作为文章的特征串。两个文本间特征串的相似性反映了文本间的相似性。
其具体步骤包括:
S31:将第一文本和第二文本的动词序列分别作为第一文本特征字符串和第二文本特征字符串;
S32:获取第一文本特征字符串到第二文本特征字符串的公共子串个数,记为第一公共子串个数;
S33:获取第二文本特征字符串到第一文本特征字符串的公共子串个数,记为第二公共子串个数;
S34:选取第一公共子串个数和第二公共子串个数中最大公共子串个数,作为实际公共子串个数;
S35:利用实际公共子串个数,计算第一文本与第二文本的语法相似度f1。
如图2所示,假定两个文本分别为文本A和文本B,在分别获得两个文本的动词序列后,可以将动词序列看作一个字符串,得到文本A特征字符串和文本B特征字符串,两个动词序列的相似性可以通过计算两个特征字符串的公共子串的个数来获得,假设文本A的动词序列为V1、V2、V3、V2和V4,文本B的动词序列为V1、V3、V2和V4。则文本A特征字符串到文本B特征字符串的公共子串个数如图4所示,文本B特征字符串到文本A特征字符串公共子串的个数如图5所示。由图4和图5可得,文本A特征字符串到文本B特征字符串的公共子串个数为3,文本B特征字符串到文本A特征字符串的公共子串个数为4,取两者中大的公共子串个数作为实际公共子串个数,得到实际公共子串个数为4。
最后通过语法相似度f1的计算公式计算,其计算公式为:
其中,c为实际公共子串个数,a为第一文本的动词序列中动词的个数,b为第二文本的动词序列中动词的个数。
(二)通过提取特征项,利用TF-IDF加权法进行语义相似度f2的计算
度量语义相似性可以参考信息检索中的向量模型。向量空间模型的基本思想是以向量来表示文本,可以选择字、词语或者词组作为特征项,本实施例中,优选选择词语作为特征项,同时用词语的相对词频表示向量的分量。
VSM的TF-IDF相似度计算方法,以词语作为文本的特征项,忽略近义词和同义异形词的替换问题,使得计算结果的精准度降低。利用语义词典可以有效解决这个问题。根据语义词典提供的相关词语概念的信息,作为词语相似度的度量,常用的语义词典主要有同义词词林和知网。以语义主题作为向量空间的维度提取特征向量,采用基于语料库统计的方法,首先需要选择一组词的特征,然后将每个词与这组词的特征进行比较,得到一个相关特征向量,通过计算向量的夹角余弦来计算相似度,其具体步骤包括:
S41:基于语义向量空间模型,构建语义主题空间P中的特征项向量表;
其中S41具体包括:
S411:确定语义向量空间模型中使用的语义主题集合VT={τ1,τ2,…,τd},确定语义主题空间P;
S412:确定语义向量空间模型中非语义主题的文本特征项,记为集合VN;
S413:将语义主题和特征项表示为集合V,以集合的元素为结点,元素之间的语义关系为边,组织语义关联图G=<V,E>;
S414:根据语义关联图G=<V,E>,确定所有语义主题对应的向量;
S415:计算各个特征项的向量表示,构建语义主题空间P中的特征项向量表。
S42:分别提取第一文本和第二文本中所有的特征项,得到第一文本特征项集合和第二文本特征项集合;
S43:分别统计第一文本特征项集合和第二文本特征项集合中各特征项的出现次数;
S44:利用特征项向量表,获取第一文本特征项集合和第二文本特征项集合中各特征项对应的特征项向量;
S45:根据特征项向量,计算第一文本对应的特征向量和第二文本对应的特征向量,并分别做标准化处理,得到第一文本特征向量和第二文本特征向量;
S46:根据第一文本特征向量和第二文本特征向量,计算第一文本和第二文本的语义相似度f2。
语义相似度f2的计算式为:
(三)将语法相似度f1和语义相似度f2结合,得到文本间相似度f
在获得了两个文本的语义相似度f2和语法相似度f1之后,需要计算总的相似度,即文本间相似度f,其计算式为:
f=α*f1+β*f2
其中,α为语法加权系数,其值优选为0.4,β为语义加权系数,其值优选为0.6,该值根据文中语法结构、语义结构在度量文本相似性时的权重确定。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于动词的中文文本相似度计算方法,其特征在于,包括以下步骤:
S1:获取需要进行相似度计算的第一文本和第二文本,并进行预处理;
S2:分别对预处理完成的第一文本和第二文本的提取动词序列;
S3:基于动词序列计算第一文本与第二文本的语法相似度f1;
S4:基于预处理完成的第一文本和第二文本,计算两文本的语义相似度f2;
S5:结合语法相似度和语义相似度计算第一文本和第二文本的文本间相似度f。
2.根据权利要求1所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的预处理具体包括:
对第一文本和第二文本进行分词,并去除停用词。
3.根据权利要求1所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的步骤S3具体包括:
S31:将第一文本和第二文本的动词序列分别作为第一文本特征字符串和第二文本特征字符串;
S32:获取第一文本特征字符串到第二文本特征字符串的公共子串个数,记为第一公共子串个数;
S33:获取第二文本特征字符串到第一文本特征字符串的公共子串个数,记为第二公共子串个数;
S34:选取第一公共子串个数和第二公共子串个数中最大公共子串个数,作为实际公共子串个数;
S35:利用实际公共子串个数,计算第一文本与第二文本的语法相似度f1。
5.根据权利要求4所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的步骤S4具体包括:
S41:基于语义向量空间模型,构建语义主题空间P中的特征项向量表;
S42:分别提取第一文本和第二文本中所有的特征项,得到第一文本特征项集合和第二文本特征项集合;
S43:分别统计第一文本特征项集合和第二文本特征项集合中各特征项的出现次数;
S44:利用特征项向量表,获取第一文本特征项集合和第二文本特征项集合中各特征项对应的特征项向量;
S45:根据特征项向量,计算第一文本对应的特征向量和第二文本对应的特征向量,并分别做标准化处理,得到第一文本特征向量和第二文本特征向量;
S46:根据第一文本特征向量和第二文本特征向量,计算第一文本和第二文本的语义相似度f2。
8.根据权利要求5所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的步骤S41具体包括:
S411:确定语义向量空间模型中使用的语义主题集合VT={τ1,τ2,…,τd},确定语义主题空间P;
S412:确定语义向量空间模型中非语义主题的文本特征项,记为集合VN;
S413:将语义主题和特征项表示为集合V,以集合的元素为结点,元素之间的语义关系为边,组织语义关联图G=<V,E>;
S414:根据语义关联图G=<V,E>,确定所有语义主题对应的向量;
S415:计算各个特征项的向量表示,构建语义主题空间P中的特征项向量表。
9.根据权利要求8所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的特征项为文本中的各个词语。
10.根据权利要求7所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的文本间相似度计算式为:
f=α*f1+β*f2
其中,α为语法加权系数,β为语义加权系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010450674.7A CN111814456A (zh) | 2020-05-25 | 2020-05-25 | 一种基于动词的中文文本相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010450674.7A CN111814456A (zh) | 2020-05-25 | 2020-05-25 | 一种基于动词的中文文本相似度计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111814456A true CN111814456A (zh) | 2020-10-23 |
Family
ID=72848023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010450674.7A Pending CN111814456A (zh) | 2020-05-25 | 2020-05-25 | 一种基于动词的中文文本相似度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814456A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883165A (zh) * | 2021-03-16 | 2021-06-01 | 山东亿云信息技术有限公司 | 一种基于语义理解的智能全文检索方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012043294A (ja) * | 2010-08-20 | 2012-03-01 | Kddi Corp | 意味的に類似している語対を二項関係に分類する二項関係分類プログラム、方法及び装置 |
CN108549634A (zh) * | 2018-04-09 | 2018-09-18 | 北京信息科技大学 | 一种中文专利文本相似度计算方法 |
-
2020
- 2020-05-25 CN CN202010450674.7A patent/CN111814456A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012043294A (ja) * | 2010-08-20 | 2012-03-01 | Kddi Corp | 意味的に類似している語対を二項関係に分類する二項関係分類プログラム、方法及び装置 |
CN108549634A (zh) * | 2018-04-09 | 2018-09-18 | 北京信息科技大学 | 一种中文专利文本相似度计算方法 |
Non-Patent Citations (2)
Title |
---|
刘小军;赵栋;姚卫东;: "一种用于中文文本查重的双因子相似度算法", 计算机仿真, no. 12, pages 2 - 3 * |
黄菊;: "一种基于语义向量空间模型的作业查重算法", 电子科学技术, no. 06, pages 2 - 3 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883165A (zh) * | 2021-03-16 | 2021-06-01 | 山东亿云信息技术有限公司 | 一种基于语义理解的智能全文检索方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Suleiman et al. | Deep learning based technique for plagiarism detection in Arabic texts | |
Oudah et al. | NERA 2.0: Improving coverage and performance of rule-based named entity recognition for Arabic | |
Ulčar et al. | High quality ELMo embeddings for seven less-resourced languages | |
CN108073571B (zh) | 一种多语言文本质量评估方法及系统、智能文本处理系统 | |
CN113761890B (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
Gao et al. | Named entity recognition method of Chinese EMR based on BERT-BiLSTM-CRF | |
Ren et al. | Detecting the scope of negation and speculation in biomedical texts by using recursive neural network | |
Al-Harbi et al. | Lexical disambiguation in natural language questions (nlqs) | |
Wadud et al. | Text coherence analysis based on misspelling oblivious word embeddings and deep neural network | |
Shafi et al. | UNLT: Urdu natural language toolkit | |
Zhang et al. | Chinese-English mixed text normalization | |
Tahrat et al. | Text2geo: from textual data to geospatial information | |
Sornlertlamvanich et al. | Thai Named Entity Recognition Using BiLSTM-CNN-CRF Enhanced by TCC | |
Aejas et al. | Named entity recognition for cultural heritage preservation | |
CN111814456A (zh) | 一种基于动词的中文文本相似度计算方法 | |
pal Singh et al. | Naive Bayes classifier for word sense disambiguation of Punjabi language | |
Khoufi et al. | Chunking Arabic texts using conditional random fields | |
Tongtep et al. | Multi-stage automatic NE and pos annotation using pattern-based and statistical-based techniques for thai corpus construction | |
Abdolahi et al. | A new method for sentence vector normalization using word2vec | |
Rebala et al. | Natural language processing | |
Jamwal | Named entity recognition for Dogri using ML | |
Prasad et al. | Lexicon based extraction and opinion classification of associations in text from Hindi weblogs | |
Bafna et al. | BaSa: A Technique to Identify Context based Common Tokens for Hindi Verses and Proses | |
Bharti et al. | Sarcasm as a contradiction between a tweet and its temporal facts: a pattern-based approach | |
Liu et al. | Domain phrase identification using atomic word formation in Chinese text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |