CN116562278B - 一种词语相似性检测方法及系统 - Google Patents
一种词语相似性检测方法及系统 Download PDFInfo
- Publication number
- CN116562278B CN116562278B CN202310192018.5A CN202310192018A CN116562278B CN 116562278 B CN116562278 B CN 116562278B CN 202310192018 A CN202310192018 A CN 202310192018A CN 116562278 B CN116562278 B CN 116562278B
- Authority
- CN
- China
- Prior art keywords
- word
- collocation
- ordered
- pairs
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000009826 distribution Methods 0.000 claims description 67
- 238000012216 screening Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 10
- 239000000470 constituent Substances 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 8
- 230000008569 process Effects 0.000 abstract description 6
- 238000011156 evaluation Methods 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 238000004422 calculation algorithm Methods 0.000 description 21
- 238000004364 calculation method Methods 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 10
- 230000000007 visual effect Effects 0.000 description 10
- 238000012937 correction Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种词语相似性检测方法及系统,属于自然语言处理技术领域,包括:基于待比较的词语A和词语B在对应语料文本中的搭配词的差异度来检测二者之间的相似性;且在这个过程中,将“搭配强度”和“共现位置”两个维度交互作用下的二维数据点作为搭配词,在更大程度上承载了中心词周边的语境信息,使得中心词的搭配词的表达能力更强大也更准确;与此同时,考虑到搭配的方向性和序列性,通过将搭配的方向性和序列性纳入评估,能够充分利用词语的上下文信息,对词语进行准确地理解和表达。基于此,本发明充分利用了搭配知识及其蕴含的上下文信息,在比较特定上下文中的词语使用情况时,检测的准确性较高。
Description
技术领域
本发明属于自然语言处理技术领域,更具体地,涉及一种词语相似性检测方法及系统。
背景技术
词语相似性检测对自然语言处理任务具有重要作用,例如句法自动分析、词义消歧、语义结构分析、自然语言生成、关键字智能补全、问答系统、作文自动批改等,此外也对人的教育、研究和生产实践具有影响,因此,研究一种词语相似性检测方法存在重要意义。
现有的词语相似性检测方法一般采用词向量、语义词典、结构模板替换等方法,但是上述方法在特定语料的、小样本的词语相似性检测上适用性差。首先,词向量方法需要基于大规模的预设训练数据,对数据量要求较高;语义词典和结构模板替换方法使用人工设定的词义规则,但是同一个词语在不同文本中,其含义有时会存在较大的差异,该方法并未结合词语的上下文信息,在比较特定上下文中的词语使用情况容易产生偏差,检测的准确性较低。其次,上述方法所产生的相似度结果均为单一的评价数值,而对于差异性的具体解释、对用户的实践指导效果较差。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种词语相似性检测方法及系统,用以解决现有技术在小样本语料上相似性检测的准确度较低的技术问题。
为了实现上述目的,第一方面,本发明提供了一种词语相似性检测方法,包括以下步骤:
S11、分别以第一语料文本中的词语A和第二语料文本中的词语B为中心词,获取中心词在对应语料文本中的有序词对集,得到第一有序词对集和第二有序词对集,以及各有序词对的搭配强度和分布距离;
S12、将第一有序词对集和第二有序词对集进行比较,将具有相同搭配词及搭配方向的第一有序词对和第二有序词对进行组合,得到多个有序词对组;
S13、以有序词对的分布距离和搭配强度为指标,计算每一个有序词对组中的两个有序词对之间的差异度,进而得到词语A和词语B之间的相似度;
其中,获取中心词在其语料文本中的有序词对集的方法包括:
采用滑动窗口在中心词的语料文本中进行滑动,并按照文本方向,得到每一个窗口内的任意两个词语所组成的有序词对,以及有序词对中两个词语的距离;
筛选出所有包含中心词的有序词对,并将相同的有序词对化为一类,得到不同类型的有序词对所构成的有序词对集,获取各有序词对的搭配强度和分布距离;其中,分布距离为同一类型下的所有有序词对的距离的平均值、中位数、众数或截尾平均数。
进一步优选地,有序词对的搭配强度基于有序词对的出现频数,采用互信息算法或似然比算法计算得到。
进一步优选地,词语A和词语B之间的相似度为所得的各差异度的平均值;或者,词语A和词语B之间的相似度为差异度的分布数据。
进一步优选地,建立以分布距离和搭配强度为坐标轴的坐标系,搭配词对以点的形式分布在坐标系中,通过度量搭配词对组中的两个搭配词对之间的距离,得到每一个搭配词对组中的两个搭配词对之间的差异度。
进一步优选地,上述距离为欧式距离或曼哈顿距离。
第二方面,本发明提供了一种词语相似性检测方法,包括以下步骤:
S21、分别以第一语料文本中的词语A和第二语料文本中的词语B为中心词,获取中心词在对应语料文本中的搭配词对集,得到第一搭配词对集和第二搭配词对集,以及各搭配词对的搭配强度和分布距离;
S22、将第一搭配词对集和第二搭配词对集进行比较,将具有相同搭配词的第一搭配词对和第二搭配词对进行组合,得到多个搭配词对组;
S23、以搭配词对的分布距离和搭配强度为指标,计算每一个搭配词对组中的两个搭配词对之间的差异度,进而得到词语A和词语B之间的相似度;
其中,获取中心词在其语料文本中的搭配词对集的方法包括:
采用滑动窗口在中心词的语料文本中进行滑动,并按照文本方向,得到每一个窗口内的任意两个词语所组成的有序词对,以及有序词对中两个词语的距离;
筛选出所有包含中心词的有序词对,并将两个组成词语均相同的有序词对作为一类搭配词对,得到不同类型的搭配词对所构成的搭配词对集,获取各搭配词对的搭配强度和分布距离;其中,分布距离为同一类型下的所有有序词对的矢量距离的平均值、中位数、众数或截尾平均数;
有序词对的矢量距离的绝对值与其距离相同,其性质符号取决于其搭配方向。
进一步优选地,搭配词对的搭配强度基于搭配词对的出现频数,采用互信息算法或似然比算法计算得到。
进一步优选地,词语A和词语B之间的相似度为所得的各差异度的平均值;或者,词语A和词语B之间的相似度为差异度的分布数据。
进一步优选地,建立以分布距离和搭配强度为坐标轴的坐标系,搭配词对以点的形式分布在坐标系中,通过度量搭配词对组中的两个搭配词对之间的距离,得到每一个搭配词对组中的两个搭配词对之间的差异度。
进一步优选地,上述距离为欧式距离或曼哈顿距离。
第三方面,本发明提供了一种词语相似性检测系统,包括:存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时执行本发明第一方面所提供的词语相似性检测方法和/或第二方面所提供的词语相似性检测方法。
第四方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行本发明第一方面所提供的词语相似性检测方法和/或第二方面所提供的词语相似性检测方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
1、本发明第一方面所提供的词语相似性检测方法,基于待比较的词语A和词语B在对应语料文本中的搭配词的差异度来检测二者之间的相似性。且在这个过程中,将“搭配强度”和“共现位置”两个维度交互作用下的二维数据点作为搭配词,在更大程度上承载了中心词周边的语境信息,使得中心词的搭配词的表达能力更强大也更准确;与此同时,考虑到搭配的方向性和序列性,将两个具有相同搭配词及搭配方向的有序词对分别进行比对,能够更加准确地区分开搭配词在中心词两侧出现时所具有的不同语法意义,以利用词语的上下文信息对词语进行准确地理解和表达,使得对比结果更加精确有效,且在文本数据量充足的情况下表现更佳。综上,本发明充分利用了待检测词语的搭配知识及其蕴含的上下文信息,在比较特定上下文中的词语使用情况时,检测的准确性较高。
2、本发明第二方面所提供的词语相似性检测方法,基于待比较的词语A和词语B在对应语料文本中的搭配词的差异度来检测二者之间的相似性。且在这个过程中,将“搭配强度”和“共现位置”两个维度交互作用下的二维数据点作为搭配词,在更大程度上承载了中心词周边的语境信息,使得中心词的搭配词的表达能力更强大也更准确;与此同时,考虑到搭配的方向性和序列性,且将位置信息综合考虑后再进行比对,在利用词语的上下文信息对词语进行准确地理解和表达的同时,进一步避开了方向上的严格细分,能够扩大参与比较的搭配词对数量,即使在文本数据量较小的情况下,也能够得使得对比结果精确有效;综上,本发明充分利用了待检测词语的搭配知识及其蕴含的上下文信息,在比较特定上下文中的词语使用情况时,检测的准确性较高。
3、本发明第一方面和第二方面所提供的词语相似性检测方法,在计算过程中完整地保留了搭配词对比信息,而并未对其进行类似词向量方法的扁平化降维过程,从而具有较高的解释性,能够解释差异性原因,具有更高的实践活动指导作用。
4、本发明第一方面和第二方面所提供的词语相似性检测方法,计算信息是全部依赖于实际的语料数据的,而并未使用类似语义词典和结构模板替换等方法的人工规则,从而能够在各种语料内容上对词义进行动态捕捉,具有更高的灵活性和适配性。
附图说明
图1为本发明第一方面所提供的词语相似性检测方法流程图;
图2为本发明第二方面所提供的词语相似性检测方法流程图;
图3为本发明实施例提供的词语相似性检测系统示意图;
图4为本发明实施例提供的词语比较功能的输出结果示意图;
图5为本发明实施例提供的同一词语make的不同语料搭配分布的可视化结果;其中,(a)为词语make在输入语料1的搭配分布的可视化结果;(b)为词语make在输入语料2的搭配分布的可视化结果;(c)为词语make在输入语料3的搭配分布的可视化结果;(d)为词语make在原语语料的搭配分布的可视化结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
为了实现上述目的,第一方面,如图1所示,本发明提供了一种词语相似性检测方法,包括以下步骤:
S11、分别以第一语料文本中的词语A和第二语料文本中的词语B为中心词,获取中心词在对应语料文本中的有序词对集,得到第一有序词对集和第二有序词对集,以及各有序词对的搭配强度和分布距离;
具体地,获取搭配词的方法可以为现有的任意一种搭配方法;优选地,在一种可选实施方式下,获取中心词在其语料文本中的有序词对集的方法包括:
采用滑动窗口在中心词的语料文本中进行滑动,并按照文本方向(读取语料文本的方向),得到每一个窗口内的任意两个词语所组成的有序词对,以及有序词对中两个词语的距离;
筛选出所有包含中心词的有序词对,并将相同的有序词对化为一类,得到不同类型的有序词对所构成的有序词对集,获取各有序词对的搭配强度和分布距离;其中,分布距离为同一类型下的所有有序词对的距离的平均值、中位数、众数或截尾平均数。
需要说明的是,搭配强度越大、且分布距离越小,有序词对中两个词之间的关联程度越高,可搭配性越强,越容易用在同一句词句中。本发明中,统一将实际任务中的检索关键词称为“中心词”,将要计算并返回的其他词称为“搭配词”。例如要从一个语料库中获取“北京”一词的可能搭配,则“北京”即为中心词,“举办”、“市区”等均可能是其搭配词。
进一步地,有序词对的搭配强度可以基于有序词对的出现频数,采用互信息算法、似然比算法等算法计算得到。优选地,使用互信息(PMI)算法来计算有序词对x-y的搭配强度:
从而得到“词对-关联强度”集合。在上述公式中:
其中,C(x-y)为有序词对(x-y)的出现频数(即有序词对(x-y)在语料文本中出现的频次),C(x)、C(y)和C(*)分别为词语x在语料文本中出现的频次、词语y在语料文本中出现的频次和语料文本的总词数。
进一步地,在一种可选实施方式下,可以进一步基于分布距离对搭配强度进行调整;对于有序词对C-D,调整后的搭配强度为:α1和α2分别为搭配强度维度和分布距离维度的权重;等式右边的wC-D表示调整前的搭配强度;lC-D表示词有序词对C-D中词语C与D之间的分布距离。
S12、将第一有序词对集和第二有序词对集进行比较,将具有相同搭配词及搭配方向的第一有序词对和第二有序词对进行组合,得到多个有序词对组;有序词对中,中心词和搭配词的搭配方向由二者在语料文本中的先后顺序确定;
具体地,为了方便差异度的计算,在一种可选实施方式下,建立以分布距离和搭配强度为坐标轴的坐标系,搭配词对以点的形式分布在坐标系中,通过度量搭配词对组中的两个搭配词对之间的距离,得到每一个搭配词对组中的两个搭配词对之间的差异度。其中,上述距离可以采用欧式距离、曼哈顿距离等进行度量。
进一步地,在一种可选实施方式下,也可以通过综合搭配强度之间的差异以及分布距离之间的差异,直接计算差异度;以词对A-Wi和词对B-Wi为例,词对A-Wi和词对B-Wi之间的差异度di为:或者di=|wA-i-wB-i|+|lA-i-lB-i|;其中,wA-i为有序词对A-Wi的搭配强度;wB-i为有序词对B-Wi的搭配强度;lA-i为有序词对A-Wi的分布距离;lB-i为有序词对B-Wi的分布距离。
S13、以有序词对的分布距离和搭配强度为指标,计算每一个有序词对组中的两个有序词对之间的差异度,进而得到词语A和词语B之间的相似度。
具体地,在一种可选实施方式下,词语A和词语B之间的相似度为所得的各差异度的平均值具体地,平均值越小,相似性越高。
在另一种可选实施方式下,词语A和词语B之间的相似度为差异度的分布数据,包括均值、方差等,可以通过对差异度数据进行曲线拟合得到从而帮助用户进一步分析词语的用法相似性特征。通过获取差异度数据的集中趋势和离散趋势描述,从而帮助用户进一步分析词语的用法相似性特征。具体地,分布数据的值越小,相似性越高。
本发明将每个词语的位置重要性提高到了与搭配强度相同的水平上,将搭配词决定为“搭配强度”和“共现位置”两个维度的交互作用,能够取得以下有益效果:在更大程度上承载了节点词周边的语境信息,使得搭配结果的表达能力更强大、更准确,其可视化结果可以直接应用于同近义词比较、多义词分析等研究,还可以服务于自然语言生成、短语补全、人机交互、文本批改等自然语言处理领域的任务。通过将搭配的方向性和序列性纳入评估,从而能够更充分地展示和利用搭配知识及其蕴含的上下文信息,对多个词语之间的相似性进行检测。
第二方面,如图2所示,本发明提供了一种词语相似性检测方法,包括以下步骤:
S21、分别以第一语料文本中的词语A和第二语料文本中的词语B为中心词,获取中心词在对应语料文本中的搭配词对集,得到第一搭配词对集和第二搭配词对集,以及各搭配词对的搭配强度和分布距离;
具体地,获取中心词在其语料文本中的搭配词对集的方法包括:
采用滑动窗口在中心词的语料文本中进行滑动,并按照文本方向(读取语料文本的方向),得到每一个窗口内的任意两个词语所组成的有序词对,以及有序词对中两个词语的距离;
筛选出所有包含中心词的有序词对,并将两个组成词语均相同的有序词对作为一类搭配词对(比如,有序词对A-C和有序词对C-A均属于搭配词对(A,C)),得到不同类型的搭配词对所构成的搭配词对集,获取各搭配词对的搭配强度和分布距离;其中,分布距离为同一类型下的所有有序词对的矢量距离的平均值、中位数、众数或截尾平均数;有序词对的矢量距离的绝对值与其距离相同,其性质符号取决于其搭配方向;搭配方向不同的有序词对的矢量距离性质符号相反(比如,有序词对A-C的矢量距离为正数,则有序词对C-A的矢量距离为负数,反之亦然);具体地,有序词对中,中心词和搭配词的搭配方向由二者在语料文本中的先后顺序确定。
需要说明的是,搭配强度越大、且分布距离越小,有序词对中两个词之间的关联程度越高,可搭配性越强,越容易用在同一句词句中。本发明中,统一将实际任务中的检索关键词称为“中心词”,将要计算并返回的其他词称为“搭配词”。例如要从一个语料库中获取“北京”一词的可能搭配,则“北京”即为中心词,“举办”、“市区”等均可能是其搭配词。
进一步地,有序词对的搭配强度可以基于搭配词对的出现频数,采用互信息算法、似然比算法等算法计算得到。优选地,使用互信息(PMI)算法来计算搭配词对(x,y)的搭配强度:
从而得到“词对-关联强度”集合。在上述公式中:
其中,C(x,y)为搭配词对(x,y)的出现频数(即搭配词对(x,y)在语料文本中出现的频次),C(x)、C(y)和C(*)分别为词语x在语料文本中出现的频次、词语y在语料文本中出现的频次和语料文本的总词数。
进一步地,在一种可选实施方式下,可以进一步基于分布距离对搭配强度进行调整;对于搭配词对(C,D),调整后的搭配强度为:α1和α2分别为搭配强度维度和分布距离维度的权重;等式右边的wC,D表示调整前的搭配强度;lC,D表示搭配词对(C,D)中词语C与词语D之间的分布距离。
S22、将第一搭配词对集和第二搭配词对集进行比较,将具有相同搭配词的第一搭配词对和第二搭配词对进行组合,得到多个搭配词对组;
具体地,为了方便差异度的计算,在一种可选实施方式下,建立以分布距离和搭配强度为坐标轴的坐标系,搭配词对以点的形式分布在坐标系中,通过度量搭配词对组中的两个搭配词对之间的距离,得到每一个搭配词对组中的两个搭配词对之间的差异度。其中,上述距离可以采用欧式距离、曼哈顿距离等进行度量。
进一步地,在一种可选实施方式下,也可以通过综合搭配强度之间的差异以及分布距离之间的差异,直接计算差异度;以搭配词对(A,Wi)和词对(B,Wi)为例,搭配词对(A,Wi)和词对(B,Wi)之间的差异度di为:或者di=|wA,i-wB,i|+|lA,i-lB,i|;其中,wA,i为搭配词(A,Wi)的搭配强度;wB,i为搭配词(B,Wi)的搭配强度;lA,i为搭配词(A,Wi)的分布距离;lB,i为词对(B,Wi)的分布距离。
S23、以搭配词对的分布距离和搭配强度为指标,计算每一个搭配词对组中的两个搭配词对之间的差异度,进而得到词语A和词语B之间的相似度;
具体地,在一种可选实施方式下,词语A和词语B之间的相似度为所得的各差异度的平均值
在另一种可选实施方式下,词语A和词语B之间的相似度为差异度的分布数据,包括均值、方差等,可以通过对差异度数据进行曲线拟合得到。通过获取差异度数据的集中趋势和离散趋势描述,从而帮助用户进一步分析词语的用法相似性特征。
本发明将每个词语的位置重要性提高到了与搭配强度相同的水平上,将搭配词决定为“搭配强度”和“共现位置”两个维度的交互作用,能够取得以下有益效果:在更大程度上承载了节点词周边的语境信息,使得搭配结果的表达能力更强大、更准确,其可视化结果可以直接应用于同近义词比较、多义词分析等研究,还可以服务于自然语言生成、短语补全、人机交互、文本批改等自然语言处理领域的任务。通过将搭配的方向性和序列性纳入评估,从而能够更充分地展示和利用搭配知识及其蕴含的上下文信息,对多个词语之间的相似性进行检测。
第三方面,本发明提供了一种词语相似性检测系统,包括:存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时执行本发明第一方面所提供的词语相似性检测方法和/或第二方面所提供的词语相似性检测方法。
相关技术方案同本发明第一方面和第二方面所提供的词语相似性检测方法,这里不做赘述。
第四方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行本发明第一方面所提供的词语相似性检测方法和/或第二方面所提供的词语相似性检测方法。
相关技术方案同本发明第一方面和第二方面所提供的词语相似性检测方法,这里不做赘述。
为了进一步说明本发明所提供的词语相似性检测方法及系统,下面结合一具体实施例进行详述:
为描述方便,本实施例以教学中的语用自然度评估任务为例进行说明。根据任务需要,本实施例采用同一批学生、三个不同阶段的英语作文材料作为输入语料,评估学生对英语单词make的掌握情况变化指标。
按照本发明所提供的词语相似性检测方法的检测过程将词语相似性检测系统分成搭配获取模块和距离分析模块(标注*部分)。连同输入控制、输出控制、语料预处理模块、可视化模块、内置语料库一起,共同构成一套多功能词语相似性检测系统,如图3所示。
用户对系统输入第一份语料文本。经过语料预处理模块,文本进入搭配获取模块进行分析。具体步骤包括:
1)基于窗口进行共现词对统计。本实施例对所用语料文本的来源和语种不作限定,语料文本可以是中文、英文或者其他语言。在语料文本上按某一窗口长度进行检索,得到语料中所有的词对集合,将所有的二元词对记为(W1,W2)的形式。需要保持词对中两个词语的前后顺序,例如("make","friend")和("friend","make")是两个不同的词对项。此处使用窗口长度为4(window_span=4),滑动步长为1。
具体地,采用滑动窗口在语料文本进行滑动,并按照文本方向,统计每一个窗口内的任意两个词语所组成的二元词对,以及二元词对中两个词语的距离;获取每个二元词对在所有二元词对中出现的频数。
统计所有二元词对的间隔距离如下:
DistDict={
(W1,W2)=[d1,d2,...,dC(W1,W2)],
(W1,W3)=[d1,d2,...,dC(W1,W3)],
(Wm,Wn)=[d1,d2,...,dC(Wm,Wn)]
}
其中,(W1,W2)表示二元词对(W1,W2)在语料文本中每一次出现时的距离向量,C(W1,W2)表示词对项(W1,W2)在语料文本中出现的次数;可以通过DistDict数据结构获取此数值。
2)采用搭配算法计算每对词的搭配强度。对于搭配算法本实施例中不加限制,任何根据频数信息计算两个对象之间关联度的算法均可以使用在这一步骤。当然,不同算法具有不同的适用范围,需要根据语料数据的样本量和质量按照实际情况选择最优算法;在此实施例中,使用互信息(PMI)算法来计算词对的搭配强度:
从而得到“词对-关联强度”集合。在上述公式中:
其中C(x,y)可从步骤1)的结果中获得,C(x)、C(y)和C(*)分别为词语x在语料文本中出现的频次、词语y在语料文本中出现的频次和语料文本的总词数。
3)根据距离统计数据计算每对词的平均距离。核心在于提供一个描述搭配词位置信息的统计量,对于此统计量的计算方法我们不加限制,常用的集中趋势描述方法包括但不限于:算数平均数、中位数、众数、截尾平均数,也可以采用类似箱型图(Box Plot)所需的一系列关键数据进行详细描述。在此实施例中使用(算数)平均数来描述词对的位置信息:
其中,C(x,y)和dn均可从步骤1)的结果中获得。
本实施例中,均采用上述方法获取得到了每一对二元词对(Wm,Wn)的分布距离。
4)给定中心词,从词对项集合中筛选出所有搭配词,返回搭配词列表和其二维信息。其中,二维分别指步骤2)中计算得到的搭配强度和步骤3)中计算得到的平均距离。
通过上述方法获得了目标语料中单词make的搭配上下文表示法,其中参数配置为:搭配算法为PMI;最低共现频次为5;关联强度(y)经过归一化处理,去除负值后被映射到[0,1]的区间中,关联强度的筛选阈值为0.05;平均距离(x)的范围为[-4,4];语料全部被转换为小写字母;经过动词和形容词两类词性的筛选。搭配获取模块以相同的参数对其余的输入语料做相同的处理,并将获得的所有搭配上下文信息输入距离分析模块。
距离分析模块对每两个搭配信息数据集进行差异度计算,具体可以按照本发明第一方面或第二方面所提供的词语相似性检测方法进行计算。
需要说明的是,除了差异度的平均值和差异度的分布数据外,系统还可以将所有距离中的较大距离搭配词列表与较小距离搭配词列表返回给用户,作为相似性分析的附加结果,用于帮助用户进一步分析词语的用法相似性特征。
本发明采用距离的平均值衡量了两个词语的使用方式差异,该指标根据实际的应用场景具有不同含义的解读,具体可分为以下三种:
对相同语料文本范围中的不同词语进行上述计算,即所得相似度结果用于表示不同词语的使用习惯差异程度,此方法可用于进行概念比较与近义词辨析;此时,第一语料文本和第二语料文本相同。
对不同语料范围中的相同词语进行上述计算,即所得相似度结果为相同词语的使用习惯差异程度,此方法可用于进行语用习惯辨析;此时,词语A和词语B相同。特别地,在外语教育领域中,如果将语言学习者语料与本土语者语料进行此测量,则所得相似度结果可用于测量语言学习者的词语用法掌握度、自然度。
对不同语料文本范围中的不同词语进行上述计算,所得的相似度结果还可以用于衡量语料文本之间的差异。
进一步地,系统可以内置多个参照语料文本库,用以辅助完成不同的功能输出。在此实施例的具体任务中,系统内置一个英语原语者语料库,在距离分析模块中对其进行相同的搭配获取处理,得到原语者对同一中心词的搭配词分布。
图4以可视化形式展示了此实施例在此任务场景中的输出结果。用户可以判断,输入语料3中make的用法最贴近原语者,输入语料1中make的用法同原语者差距最大,并分别给出了各个输入语料中用法差异最大的前三个词表。此输出能够对学习反馈、作文批改、词语纠错等应用提供直观高效的数据支撑。
上述计算方法得到的中间结果,即由搭配获取模块生成的搭配分布,应作为一种系统提供的辅助功能,通过系统可视化模块进行渲染,一并呈现给用户进行便捷对比与解读。获得了搭配词分布列表,其中的每一个搭配词都是一个由“关联强度”和“共现位置”两个维度交互作用下的数据点,因此可以更适配在多种可视化方法中。例如,将该分布表在二维平面直角坐标系中进行表示,优选地,模块可采用与搭配分布数据结构最相适应的二维散点图,将搭配词表示为二维平面中的一个坐标(x,y),其中一个维度表示搭配词的搭配强度(关联强度,一般为y轴),另一个维度表示搭配词的分布距离(一般为x轴),形成一个搭配词的散点图,对数据进行可视化呈现。优选地,分布距离维度(x维度)可以包括以下特征:每个搭配词的分布距离取该词所有出现距离的平均值;若将中心词一并表示在图表中,则中心词可以为零点或间隔距离为0的任何一个点;分布距离维度的展示范围可以限定为计算方法的检索窗口内,也可以根据实际的应用需要进行调整。优选地,搭配强度维度(y维度)可以包括以下特征:出于阅读和绘图的便利性考量,搭配强度还可以进行归一化处理,将展示范围限定在[0,1]的区间内,越接近1表示搭配强度越高,越接近0表示搭配强度越低;对于一些可能出现负值的搭配算法(如PMI),不将具有负值的搭配词呈现在图中。优选地,散点图中的数据点包括以下特征:每个数据点的标签可以用于表示其对应的搭配词,标签还可以附加显示该词在语料中出现的频次、该词的词性、该词充当的句法成分等信息;每个数据点的灰度可以用于表示搭配词分组,分组可以根据实际的应用需要进行设置,例如区分为实词组和虚词组,或区分为积极组和消极组;每个数据点的大小和灰度可以用于表示基于分布距离对搭配强度进行调整后的搭配强度。
对3个输入语料和1个内置语料的呈现结果如图5所示。从图5中,用户可以更直观地了解到不同语料间搭配词的强度与位置信息,而位置信息则体现了两个词语间的句法关系。此表示方法是对现有的搭配表示法(搭配词表、搭配网络)的改进,使之对用户而言更易阅读与理解,具有良好的实践指导效果。
通过以上实施方式的描述可知,本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
如图3所示,此搭配计算方法实装在系统中,应该处于搭配词计算功能的核心部分,它的输入为中心词(必须)和语料数据(可选),输出表示为一个表格结构。系统面向用户提供此功能时,在输入端和输出端分别提供了配套的处理程序。
在输入端,计算所使用的语料应可以支持两种来源:用户自行上传语料或使用系统内置的语料。内置有关于数据读写、语料预处理等支撑模块,这是大部分语料处理系统均有的基本配置。其中,语料预处理模块包括但不限于:移除标点符号,移除停用词,大小写转换,词形还原,词性标注。
在输出端,算法的结果应该传递给可视化模块进行配套的渲染。在可视化渲染之前,系统提供了一系列搭配词筛选方法,包括但不限于:按实词和虚词进行筛选、按词性进行筛选、按共现频次进行筛选、按关联强度进行筛选、按平均距离进行筛选。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种词语相似性检测方法,其特征在于,包括以下步骤:
S11、分别以第一语料文本中的词语A和第二语料文本中的词语B为中心词,获取中心词在对应语料文本中的有序词对集,包括:第一有序词对集和第二有序词对集;并获取各有序词对的搭配强度和分布距离;
S12、将所述第一有序词对集和所述第二有序词对集进行比较,将具有相同搭配词及搭配方向的第一有序词对和第二有序词对进行组合,得到多个有序词对组;
S13、以有序词对的分布距离和搭配强度为指标,计算每一个有序词对组中的两个有序词对之间的差异度,进而得到所述词语A和所述词语B之间的相似度;
所述获取中心词在对应语料文本中的有序词对集包括:采用滑动窗口在中心词的语料文本中进行滑动,并按照文本方向,得到每一个窗口内的任意两个词语所组成的有序词对,以及有序词对中两个词语的距离;筛选出所有包含中心词的有序词对,并将相同的有序词对化为一类,得到不同类型的有序词对所构成的有序词对集;
其中,所述有序词对集中任意类型的有序词对的分布距离为该类型下的所有有序词对的距离的平均值、中位数、众数或截尾平均数。
2.根据权利要求1所述的词语相似性检测方法,其特征在于,所述词语A和所述词语B之间的相似度为所得的各差异度的平均值;
或者,所述词语A和所述词语B之间的相似度为差异度的分布数据。
3.根据权利要求1或2所述的词语相似性检测方法,其特征在于,建立以分布距离和搭配强度为坐标轴的坐标系,搭配词对以点的形式分布在坐标系中,通过度量搭配词对组中的两个搭配词对之间的距离,得到每一个搭配词对组中的两个搭配词对之间的差异度。
4.根据权利要求3所述的词语相似性检测方法,其特征在于,所述距离为欧式距离或曼哈顿距离。
5.一种词语相似性检测方法,其特征在于,包括以下步骤:
S21、分别以第一语料文本中的词语A和第二语料文本中的词语B为中心词,获取中心词在对应语料文本中的搭配词对集,包括:第一搭配词对集和第二搭配词对集;并获取各搭配词对的搭配强度和分布距离;;
S22、将所述第一搭配词对集和所述第二搭配词对集进行比较,将具有相同搭配词的第一搭配词对和第二搭配词对进行组合,得到多个搭配词对组;
S23、以搭配词对的分布距离和搭配强度为指标,计算每一个搭配词对组中的两个搭配词对之间的差异度,进而得到所述词语A和所述词语B之间的相似度;
所述获取中心词在对应语料文本中的搭配词对集包括:采用滑动窗口在中心词的语料文本中进行滑动,并按照文本方向,得到每一个窗口内的任意两个词语所组成的有序词对,以及有序词对中两个词语的距离;筛选出所有包含中心词的有序词对,并将两个组成词语均相同的有序词对作为一类搭配词对,得到不同类型的搭配词对所构成的搭配词对集;
所述搭配词对集中任意类型的搭配词对的分布距离为该类型下的所有有序词对的矢量距离的平均值、中位数、众数或截尾平均数;所述有序词对的矢量距离的绝对值与其距离相同,其性质符号取决于其搭配方向。
6.根据权利要求5所述的词语相似性检测方法,其特征在于,所述词语A和所述词语B之间的相似度为所得的各差异度的平均值;
或者,所述词语A和所述词语B之间的相似度为差异度的分布数据。
7.根据权利要求5或6所述的词语相似性检测方法,其特征在于,建立以分布距离和搭配强度为坐标轴的坐标系,搭配词对以点的形式分布在坐标系中,通过度量搭配词对组中的两个搭配词对之间的距离,得到每一个搭配词对组中的两个搭配词对之间的差异度。
8.根据权利要求7所述的词语相似性检测方法,其特征在于,所述距离为欧式距离或曼哈顿距离。
9.一种词语相似性检测系统,其特征在于,包括:存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时执行权利要求1-8任意一项所述的词语相似性检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行权利要求1-8任意一项所述的词语相似性检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310192018.5A CN116562278B (zh) | 2023-03-02 | 2023-03-02 | 一种词语相似性检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310192018.5A CN116562278B (zh) | 2023-03-02 | 2023-03-02 | 一种词语相似性检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116562278A CN116562278A (zh) | 2023-08-08 |
CN116562278B true CN116562278B (zh) | 2024-05-14 |
Family
ID=87488623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310192018.5A Active CN116562278B (zh) | 2023-03-02 | 2023-03-02 | 一种词语相似性检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116562278B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103390004A (zh) * | 2012-05-11 | 2013-11-13 | 北京百度网讯科技有限公司 | 一种语义冗余的确定方法和装置、对应的搜索方法和装置 |
CN106325488A (zh) * | 2015-07-09 | 2017-01-11 | 北京搜狗科技发展有限公司 | 一种输入方法、输入装置、服务器和输入系统 |
CN111079415A (zh) * | 2019-11-12 | 2020-04-28 | 中国标准化研究院 | 一种基于搭配冲突的中文自动查错方法 |
CN112036120A (zh) * | 2020-08-31 | 2020-12-04 | 上海硕恩网络科技股份有限公司 | 一种技能短语抽取方法 |
CN112395871A (zh) * | 2020-12-02 | 2021-02-23 | 华中科技大学 | 一种搭配构式的自动获取方法和系统、可视化方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005017698A2 (en) * | 2003-08-11 | 2005-02-24 | Educational Testing Service | Cooccurrence and constructions |
US8478581B2 (en) * | 2010-01-25 | 2013-07-02 | Chung-ching Chen | Interlingua, interlingua engine, and interlingua machine translation system |
US20140249799A1 (en) * | 2013-03-04 | 2014-09-04 | Microsoft Corporation | Relational similarity measurement |
-
2023
- 2023-03-02 CN CN202310192018.5A patent/CN116562278B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103390004A (zh) * | 2012-05-11 | 2013-11-13 | 北京百度网讯科技有限公司 | 一种语义冗余的确定方法和装置、对应的搜索方法和装置 |
CN106325488A (zh) * | 2015-07-09 | 2017-01-11 | 北京搜狗科技发展有限公司 | 一种输入方法、输入装置、服务器和输入系统 |
CN111079415A (zh) * | 2019-11-12 | 2020-04-28 | 中国标准化研究院 | 一种基于搭配冲突的中文自动查错方法 |
CN112036120A (zh) * | 2020-08-31 | 2020-12-04 | 上海硕恩网络科技股份有限公司 | 一种技能短语抽取方法 |
CN112395871A (zh) * | 2020-12-02 | 2021-02-23 | 华中科技大学 | 一种搭配构式的自动获取方法和系统、可视化方法 |
Non-Patent Citations (1)
Title |
---|
基于统计模型的词语搭配自动获取方法的分析与比较;全昌勤, 刘辉, 何婷婷;计算机应用研究(第09期);55-57 * |
Also Published As
Publication number | Publication date |
---|---|
CN116562278A (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dunn | Computational learning of construction grammars | |
TWI608367B (zh) | 中文文本可讀性計量系統及其方法 | |
US8380489B1 (en) | System, methods, and data structure for quantitative assessment of symbolic associations in natural language | |
CN110287494A (zh) | 一种基于深度学习bert算法的短文本相似匹配的方法 | |
CN110727796B (zh) | 面向分级读物的多尺度难度向量分类方法 | |
CN110704621A (zh) | 文本处理方法、装置及存储介质和电子设备 | |
JP2004110161A (ja) | テキスト文比較装置 | |
KR20080021017A (ko) | 텍스트 기반의 문서 비교 | |
JP2004110200A (ja) | テキスト文比較装置 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN111832278B (zh) | 文档流畅度的检测方法、装置、电子设备及介质 | |
TW201403354A (zh) | 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法 | |
CN111626042A (zh) | 指代消解方法及装置 | |
Aida et al. | A comprehensive analysis of PMI-based models for measuring semantic differences | |
Khader et al. | Textual entailment for Arabic language based on lexical and semantic matching | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
CN116562278B (zh) | 一种词语相似性检测方法及系统 | |
JP5823441B2 (ja) | 格解析モデルパラメータ学習装置、格解析装置、方法、及びプログラム | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
Mahafdah et al. | Arabic Part of speech Tagging using k-Nearest Neighbour and Naive Bayes Classifiers Combination. | |
Quan et al. | Automatic Annotation of Word Emotion in Sentences Based on Ren-CECps. | |
CN110674630B (zh) | 指代消解方法和装置、电子设备及存储介质 | |
Lin et al. | Design and implementation of intelligent scoring system for handwritten short answer based on deep learning | |
CN111898343B (zh) | 一种基于短语结构树的相似题目识别方法和系统 | |
Wang | Design and implementation of English composition automatic evaluation system based on B/S architecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |