CN109325229A - 一种利用语义信息计算文本相似度的方法 - Google Patents
一种利用语义信息计算文本相似度的方法 Download PDFInfo
- Publication number
- CN109325229A CN109325229A CN201811094368.3A CN201811094368A CN109325229A CN 109325229 A CN109325229 A CN 109325229A CN 201811094368 A CN201811094368 A CN 201811094368A CN 109325229 A CN109325229 A CN 109325229A
- Authority
- CN
- China
- Prior art keywords
- word
- sequence
- text
- keyword
- term vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种利用语义信息计算文本相似度的方法,具体而言,该方法包括:将给定的文本进行分词处理得到对应的词序列,然后将上述词序列中的每个单词对应于训练好的词向量取出形成词向量序列,进一步确定给定文本中词序列的关键词,形成关键词序列;判定所述文本中的词是否属于关键词序列并分别赋予不同的权重;在获取了词向量和对应权重的基础上,将句子的词向量与权重值进行加权求和得到语义向量序列,最后利用文本间的语义向量的夹角余弦表示不同文本的相似度。该方法充分考虑了文本中每个词在文本相似度计算中的作用,强调每个词对相似度的贡献的区别,从语义的角度重新定义了求不同文本相似度的方法。
Description
技术领域
本发明涉及文本相似度计算领域,具体而言,涉及一种充分利用文本中词语语义信息来计算文本相似度的方法。
背景技术
文本相似度计算即计算两个给定文本在语义上的近似程度。文本相似度计算在NLP(自然语言处理)领域中具有十分重要的科研价值和应用价值,其广泛应用于社区问答系统、聊天机器人、机器翻译、文本分类、词义排歧以及信息检索等。
传统文本相似度计算方法主要从词汇、语义、句法方面计算文本的相似度:基于词汇的方法利用两个文本中相同词汇的占比来衡量文本的相似度程度;基于语义的方法利用外部语义词典计算文本相似度;基于句法的方法借助文本编辑距离或句法树计算文本相似度。
深度学习模型在解决这一问题时,要么将两个文本抽象成同一空间的向量考虑,要么将两文本的词相似矩阵当成是图像中的点像素处理。
文本相似度计算的难点在于如何合理的表示句子的语义信息,传统方法最大的缺陷在于没有合理利用词汇的语义信息来表示句子。基于深度学习的方法虽然较好的利用了词汇的语义信息来表示句子,但训练语料的大小很大程度上影响了模型的性能,高成本的标记语料极大的限制了深度学习模型的实际应用。
发明内容
本发明的目的在于提供一种利用了语义信息的计算文本相似度的方法,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
本发明表示句子语义信息时利用了包含更多信息的词向量,且在句子的向量化表示过程中并没有对词向量直接求和而是在为其分配了不同的权重后求和,这样不仅考虑了每个词在计算文本相似度中的作用,也强调了不同的词的贡献是有差异的。
相对于传统文本相似度计算方法,本发明更加合理的表示句子语义,且更容易减少未登录词对文本相似度计算的影响。相对于深度学习方法,本发明不需要借助大规模的标记语料,也无需大量的训练时间。本发明更简单,适用性更强,更适合大规模使用。
本发明提供一种利用语义信息计算文本相似度的方法其特征在于,该方法包括如下步骤:
将给定的第一文本S1和第二文本S2分别进行分词处理,得到对应于第一文本S1的第一词序列W1和对应于第二文本S2的第二词序列W2;
将所述第一词序列W1中的每个词对应于skip-gram中训练好的词向量取出形成第一词向量序列V1;
将所述第二词序列W2中的每个词对应于skip-gram中训练好的词向量取出形成第二词向量序列V2;
进一步计算第一文本S1和第二文本S2的关键词序列,得到第一关键词序列K1和第二关键词序列K2;
判断第一词序列W1中的每个词是否属于第一关键词序列K1和第二词序列W2中的每个词是否属于第二关键词序列K2,按照属于和不属于,赋予不同的权重;
将获得的第一词向量序列V1与该第一词向量序列中每个词的权重进行词向量加权求和,得到第一文本的第一语义向量SV1;
将获得的第二词向量序列V2与该第二词向量序列中每个词的权重进行词向量加权求和,得到第二文本的第二语义向量SV2;
利用所述第一语义向量SV1和第二语义向量SV2的夹角的余弦计算所述第一文本S1和第二文本S2的相似度。
优选地,所述第一词序列W1和第二词序列W2分别表示为:
其中n和m分别是两个文本的单词数,分别表示第一词序列W1中的第1至n个单词,分别表示第二词序列W2中的第1至m个单词。
可以理解的,在第一词序列W1和第二词序列W2中可能存在未登录词,如果存在未登录词,则其生成随机的词向量,同时,第一文本和第二文本中相同的未登录词生成相同的词向量。
所述第一词向量序列V1和第二词向量序列V2分别表示为:
其中,分别表示第一词向量序列V1中的第1至n个词向量,分别表示第二词向量序列V2中的第1至m个词向量。
所述第一关键词序列K1和第二关键词序列K2分别表示为:
其中,t和T分别是第一文本和第二文本对应的关键词个数,分别表示第一关键词序列K1中的第1至t个关键词,分别表示第二关键词序列K2中的第1至T个关键词。
进一步地,判定第一文本中的每个词是否属于第一关键词序列K1,同时判定第二文本中的每个词是否属于第二关键词序列K2:
如果第一文本和第二文本中的一个词分别属于第一关键词序列和第二关键词序列,则为该词赋予权重α;
如果第一文本和第二文本中的一个词不属于第一关键词序列和第二关键词序列,则为该词赋予权重β;
则对应的权重采用下式表达:
其中,l∈[1,2],当l=1时,i在1至n之间;当l=2时,i在1至m之间。
优选地,所述的第一语义向量和第二语义向量表示为:
所述相似度Sim的计算方法为:
Sim=Cos(SV1·SV2)
其中Cos(·)为表示计算余弦值。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出利用语义信息计算文本相似度的流程图;
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
针对现有技术存在的问题,本发明提供了一种利用语义信息计算文本相似度的方法。
不同于传统方法简单的利用词汇、句法等表示句子也不同于深度学习模型借助于神经网络训练句子的表示,本发明将句子表示成自身词向量的加权和,两个语义向量夹角的余弦值即是给定两文本的相似度。本发明在较好的利用词汇语义信息的同时也避免了深度学习需要高成本语料的困扰。本发明中利用的词向量是基于skip-gram训练而成的,采用的训练语料来自互联网上的开源数据集。
本发明的流程图如图1所示,本发明将给定的两个文本<S1,S2>进行分词处理,得到对应的词序列W1和W2。其中,n和m分别是两个文本的单词数。
其中分别表示词序列W1中的第1至n个单词,分别表示词序列W2中的第1至m个单词。
对于词序列W1和W2,本发明将每个单词对应于skip-gram中训练好的词向量取出形成词向量序列V1和V2。未登录词对应的词向量是随机生成的,两个文本中相同的未登录词生成的词向量是一样的即只生成一次。
其中,分别表示词向量序列V1中的第1至n个向量,分别表示词向量序列V2中的第1至m个向量。
一个句子中含有不同成分的词汇,而不同的词汇对文本相似度计算的贡献是不同的。为了区分词汇的重要程度,本发明需为不同的词汇赋予不同的权重。
本发明首先分别计算两文本<S1,S2>的关键词序列K1和K2。其中,t和T分别是两个文本对应的关键词个数。
其中,分别表示关键词序列K1中的第1至t个关键词,分别表示关键词序列K2中的第1至T个关键词。
获取关键词后,本发明再根据文本的词是否属于关键词赋不同的权重。属于关键词则赋权重为α,不是关键词怎赋权重为β。其中,l∈[1,2],当l=1时,i在1至n之间;当l=2时,i在1至m之间。
本发明在获取词向量和对应的权重的基础上将句子的语义向量表示为词向量的加权和,即SV1和SV2。
本发明在获得两个文本的语义向量之后,用这两个向量夹角的余弦值表示两个文本的相似度Sim,其中Cos(·)表示计算余弦值操作,
Sim=Cos(SV1·SV2)。
下面从一个具体的实施例进一步解释本发明所阐述的方法:
对于输入的两个文本S1(“ASF的攻击太厉害la”)和S2(“ASF的攻击好强啊”)用统一的分词软件分词,得到对应的词序列W1({“ASF”,“的”,“攻击”,“太”,“厉害”,“la”})和W2({“ASF”,“的”,“攻击”,“好强”,“啊”})。
对于词序列W1和W2,将其在skip-gram中训练好的词向量抽取出来得到文本S1和S2对应的词向量序列V1({v("ASF"),v("的")...v("la")})和V2({v("ASF"),v("的")...v("啊")})。
词语“ASF”和“la”都属于未登录词,他们对应的词向量是随机生成的。虽然两个句子中都出现了词语“ASF”,但是其词向量只随机生成一次。
本发明将文本S1和S2中的词分为普通词和关键词,关键词的计算可以借助于统一的NLP工具。
对S1和S2分别计算关键词得到对应的关键词序列K1({“攻击”,“ASF”,“厉害”})和K2({“攻击”,“ASF”,“好强”})。
本发明对不同的词分配不同的权重,普通词的权重为β,关键词的权重为α。
在获得文本中的词对应的词向量和权重之后,将文本语义表示为词向量的加权和。S1对应的句向量为SV1和,S2对应的句向量为SV2。
SV1=v(“ASF”)*α+…+v(“la”)*β
SV2=v(“ASF”)*α+…+v(“啊”)*β
在获取文本S1和S2对应的语义向量之后,计算两个向量SV1和SV2夹角的余弦值并用这个余弦值表示句子的相似度。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (8)
1.一种利用语义信息计算文本相似度的方法,其特征在于,该方法包括如下步骤:
将给定的第一文本S1和第二文本S2分别进行分词处理,得到对应于第一文本S1的第一词序列W1和对应于第二文本S2的第二词序列W2;
将所述第一词序列W1中的每个词对应于skip-gram中训练好的词向量取出形成第一词向量序列V1;
将所述第二词序列W2中的每个词对应于skip-gram中训练好的词向量取出形成第二词向量序列V2;
进一步计算第一文本S1和第二文本S2的关键词序列,得到第一关键词序列K1和第二关键词序列K2;
判断第一词序列W1中的每个词是否属于第一关键词序列K1和第二词序列W2中的每个词是否属于第二关键词序列K2,按照属于和不属于,赋予不同的权重;
将获得的第一词向量序列V1与该第一词向量序列中每个词的权重进行词向量加权求和,得到第一文本的第一语义向量SV1;
将获得的第二词向量序列V2与该第二词向量序列中每个词的权重进行词向量加权求和,得到第二文本的第二语义向量SV2;
利用所述第一语义向量SV1和第二语义向量SV2的夹角的余弦计算所述第一文本S1和第二文本S2的相似度。
2.根据权利要求1所述的方法,其特征在于:所述第一词序列W1和第二词序列W2分别表示为:
其中n和m分别是两个文本的单词数,分别表示第一词序列W1中的第1至n个单词,分别表示第二词序列W2中的第1至m个单词。
3.根据权利要求1-2中任一项所述的方法,其特征在于:在第一词序列W1和第二词序列W2中可能存在未登录词,如果存在未登录词,则其生成随机的词向量,同时,第一文本和第二文本中相同的未登录词生成相同的词向量。
4.根据权利要求1-3中任一项所述的方法,其特征在于:第一词向量序列V1和第二词向量序列V2分别表示为:
其中,分别表示第一词向量序列V1中的第1至n个词向量,分别表示第二词向量序列V2中的第1至m个词向量。
5.根据权利要求1-4中任一项所述的方法,其特征在于:所述第一关键词序列K1和第二关键词序列K2分别表示为:
其中,t和T分别是第一文本和第二文本对应的关键词个数,分别表示第一关键词序列K1中的第1至t个关键词,分别表示第二关键词序列K2中的第1至T个关键词。
6.根据权利要求5所述的方法,其特征在于:判定第一文本中的每个词是否属于第一关键词序列K1,同时判定第二文本中的每个词是否属于第二关键词序列K2:
如果第一文本和第二文本中的一个词分别属于第一关键词序列和第二关键词序列,则为该词赋予权重α;
如果第一文本和第二文本中的一个词不属于第一关键词序列和第二关键词序列,则为该词赋予权重β;
则对应的权重采用下式表达:
其中,l∈[1,2],当l=1时,i在1至n之间;当l=2时,i在1至m之间。
7.根据权利要求6所述的方法,其特征在于:所述的第一语义向量和第二语义向量表示为:
8.根据权利要求7所述的方法,其特征在于:所述相似度Sim的计算方法为:
Sim=Cos(SV1·SV2)
其中Cos(·)为表示计算余弦值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811094368.3A CN109325229B (zh) | 2018-09-19 | 2018-09-19 | 一种利用语义信息计算文本相似度的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811094368.3A CN109325229B (zh) | 2018-09-19 | 2018-09-19 | 一种利用语义信息计算文本相似度的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109325229A true CN109325229A (zh) | 2019-02-12 |
CN109325229B CN109325229B (zh) | 2023-01-31 |
Family
ID=65264890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811094368.3A Active CN109325229B (zh) | 2018-09-19 | 2018-09-19 | 一种利用语义信息计算文本相似度的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109325229B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147499A (zh) * | 2019-05-21 | 2019-08-20 | 智者四海(北京)技术有限公司 | 打标签方法、推荐方法及记录介质 |
CN110162630A (zh) * | 2019-05-09 | 2019-08-23 | 深圳市腾讯信息技术有限公司 | 一种文本去重的方法、装置及设备 |
CN110188330A (zh) * | 2019-05-31 | 2019-08-30 | 三角兽(北京)科技有限公司 | 确定相似文本信息的方法、装置、电子设备及存储介质 |
CN110704621A (zh) * | 2019-09-25 | 2020-01-17 | 北京大米科技有限公司 | 文本处理方法、装置及存储介质和电子设备 |
CN110852069A (zh) * | 2019-10-24 | 2020-02-28 | 大唐融合通信股份有限公司 | 一种文本相关性评分方法及系统 |
CN110990538A (zh) * | 2019-12-20 | 2020-04-10 | 深圳前海黑顿科技有限公司 | 基于句级深度学习语言模型的语义模糊搜索的方法 |
CN111259113A (zh) * | 2020-01-15 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、计算机可读存储介质和计算机设备 |
CN111914179A (zh) * | 2020-08-19 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 基于语义的模糊搜索方法和装置、存储介质及电子设备 |
CN112257453A (zh) * | 2020-09-23 | 2021-01-22 | 昆明理工大学 | 融合关键词和语义特征的汉越文本相似度计算方法 |
CN114048285A (zh) * | 2021-10-22 | 2022-02-15 | 盐城金堤科技有限公司 | 一种模糊检索方法、装置、终端及存储介质 |
CN117252184A (zh) * | 2023-10-16 | 2023-12-19 | 华扬联众数字技术股份有限公司 | 文本相似度的计算方法、装置、电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760363A (zh) * | 2016-02-17 | 2016-07-13 | 腾讯科技(深圳)有限公司 | 文本文件的词义消歧方法及装置 |
CN107766426A (zh) * | 2017-09-14 | 2018-03-06 | 北京百分点信息科技有限公司 | 一种文本分类方法、装置及电子设备 |
-
2018
- 2018-09-19 CN CN201811094368.3A patent/CN109325229B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760363A (zh) * | 2016-02-17 | 2016-07-13 | 腾讯科技(深圳)有限公司 | 文本文件的词义消歧方法及装置 |
CN107766426A (zh) * | 2017-09-14 | 2018-03-06 | 北京百分点信息科技有限公司 | 一种文本分类方法、装置及电子设备 |
Non-Patent Citations (6)
Title |
---|
周锦章等: "基于词向量与TextRank的关键词提取方法", 《计算机应用研究》 * |
孙昌年等: "基于LDA的中文文本相似度计算", 《计算机技术与发展》 * |
张俊飞: "改进TF-IDF结合余弦定理计算中文语句相似度", 《现代计算机(专业版)》 * |
张红鹰: "中文文本关键词提取算法", 《计算机系统应用》 * |
江涛等: "一种面向藏文聚类的文本建模方法", 《西北民族大学学报(自然科学版)》 * |
马晓军等: "融合词向量和主题模型的领域实体消歧", 《模式识别与人工智能》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162630A (zh) * | 2019-05-09 | 2019-08-23 | 深圳市腾讯信息技术有限公司 | 一种文本去重的方法、装置及设备 |
CN110147499A (zh) * | 2019-05-21 | 2019-08-20 | 智者四海(北京)技术有限公司 | 打标签方法、推荐方法及记录介质 |
CN110147499B (zh) * | 2019-05-21 | 2021-09-14 | 智者四海(北京)技术有限公司 | 打标签方法、推荐方法及记录介质 |
CN110188330A (zh) * | 2019-05-31 | 2019-08-30 | 三角兽(北京)科技有限公司 | 确定相似文本信息的方法、装置、电子设备及存储介质 |
CN110188330B (zh) * | 2019-05-31 | 2021-07-16 | 腾讯科技(深圳)有限公司 | 确定相似文本信息的方法、装置、电子设备及存储介质 |
CN110704621A (zh) * | 2019-09-25 | 2020-01-17 | 北京大米科技有限公司 | 文本处理方法、装置及存储介质和电子设备 |
CN110704621B (zh) * | 2019-09-25 | 2023-04-21 | 北京大米科技有限公司 | 文本处理方法、装置及存储介质和电子设备 |
CN110852069A (zh) * | 2019-10-24 | 2020-02-28 | 大唐融合通信股份有限公司 | 一种文本相关性评分方法及系统 |
CN110990538A (zh) * | 2019-12-20 | 2020-04-10 | 深圳前海黑顿科技有限公司 | 基于句级深度学习语言模型的语义模糊搜索的方法 |
CN110990538B (zh) * | 2019-12-20 | 2022-04-01 | 深圳前海黑顿科技有限公司 | 基于句级深度学习语言模型的语义模糊搜索的方法 |
CN111259113A (zh) * | 2020-01-15 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、计算机可读存储介质和计算机设备 |
CN111259113B (zh) * | 2020-01-15 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、计算机可读存储介质和计算机设备 |
CN111914179A (zh) * | 2020-08-19 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 基于语义的模糊搜索方法和装置、存储介质及电子设备 |
CN111914179B (zh) * | 2020-08-19 | 2021-09-28 | 腾讯科技(深圳)有限公司 | 基于语义的模糊搜索方法和装置、存储介质及电子设备 |
CN112257453A (zh) * | 2020-09-23 | 2021-01-22 | 昆明理工大学 | 融合关键词和语义特征的汉越文本相似度计算方法 |
CN114048285A (zh) * | 2021-10-22 | 2022-02-15 | 盐城金堤科技有限公司 | 一种模糊检索方法、装置、终端及存储介质 |
CN117252184A (zh) * | 2023-10-16 | 2023-12-19 | 华扬联众数字技术股份有限公司 | 文本相似度的计算方法、装置、电子设备 |
CN117252184B (zh) * | 2023-10-16 | 2024-05-28 | 华扬联众数字技术股份有限公司 | 文本相似度的计算方法、装置、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109325229B (zh) | 2023-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325229A (zh) | 一种利用语义信息计算文本相似度的方法 | |
Zhong et al. | Improving question answering by commonsense-based pre-training | |
CN107193803B (zh) | 一种基于语义的特定任务文本关键词提取方法 | |
CN107423284B (zh) | 融合中文单词内部结构信息的句子表示的构建方法及系统 | |
CN110287494A (zh) | 一种基于深度学习bert算法的短文本相似匹配的方法 | |
Igarashi et al. | Tohoku at SemEval-2016 task 6: Feature-based model versus convolutional neural network for stance detection | |
CN108280057A (zh) | 一种基于blstm的微博谣言检测方法 | |
Das et al. | Part of speech tagging in odia using support vector machine | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN108038106B (zh) | 一种基于上下文语义的细粒度领域术语自学习方法 | |
CN107391565B (zh) | 一种基于主题模型的跨语言层次分类体系匹配方法 | |
Barzegar et al. | SemR-11: A multi-lingual gold-standard for semantic similarity and relatedness for eleven languages | |
CN110502747A (zh) | 一种主题分类方法和装置 | |
CN113593661A (zh) | 临床术语标准化方法、装置、电子设备及存储介质 | |
CN111344695A (zh) | 促进特定于域和客户端的应用程序接口推荐 | |
Sadr et al. | Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms | |
Vij et al. | Fuzzy logic for inculcating significance of semantic relations in word sense disambiguation using a WordNet graph | |
CN110297986A (zh) | 一种微博热点话题的情感倾向分析方法 | |
Alqahtani et al. | A survey of text matching techniques | |
CN114722176A (zh) | 一种智能答疑的方法、装置、介质及电子设备 | |
Eshmawi et al. | Design of Automated Opinion Mining Model Using Optimized Fuzzy Neural Network. | |
Hassani et al. | Disambiguating spatial prepositions using deep convolutional networks | |
Pei et al. | Combining word embedding and semantic lexicon for Chinese word similarity computation | |
Forsberg et al. | Learning transducer models for morphological analysis from example inflections | |
Wang et al. | A method of abstractness ratings for Chinese concepts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |