CN112016306A - 基于词性对齐的文本相似度计算方法 - Google Patents

基于词性对齐的文本相似度计算方法 Download PDF

Info

Publication number
CN112016306A
CN112016306A CN202010887857.5A CN202010887857A CN112016306A CN 112016306 A CN112016306 A CN 112016306A CN 202010887857 A CN202010887857 A CN 202010887857A CN 112016306 A CN112016306 A CN 112016306A
Authority
CN
China
Prior art keywords
speech
participle
alignment
sentence
participles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010887857.5A
Other languages
English (en)
Other versions
CN112016306B (zh
Inventor
覃勋辉
杜若
唐成友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gejiu City Radio And Television Information Network Technology Co ltd
Original Assignee
Chongqing Xiezhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Xiezhi Technology Co ltd filed Critical Chongqing Xiezhi Technology Co ltd
Priority to CN202010887857.5A priority Critical patent/CN112016306B/zh
Publication of CN112016306A publication Critical patent/CN112016306A/zh
Application granted granted Critical
Publication of CN112016306B publication Critical patent/CN112016306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理技术领域,具体为基于词性对齐的文本相似度计算方法,包括:S100:对第一语句和第二语句进行分词和词性标注;S300:计算第一语句的分词和第二语句的分词之间的同义词关系,得到同义词矩阵;S400:依次对每一种词性执行步骤S401至步骤S404;S401:从第一语句和第二语句中提取当前词性对应的分词,得到第一分词序列和第二分词序列;S403:判断第一分词序列与第二分词序列的各个分词之间的对应关系,得到第一语句和第二语句的对齐结果;S404:根据对齐结果统计当前词性的对齐特征;S500:根据统计的对齐特征,计算文本相似度。本申请的基于词性对齐的文本相似度计算方法,能够解决现有算法存在的训练数据量大、计算复杂、准确率低的问题。

Description

基于词性对齐的文本相似度计算方法
技术领域
本发明涉及自然语言处理技术领域,具体为基于词性对齐的文本相似度计算方法。
背景技术
影响智能问答系统准确度的核心算法是文本相似度算法。现有的文本相似度算法有:编辑距离、jaccard集合相似度、tfidf、bm25、wmd算法等,这些都是传统的文本相似度算法,具有快速、稳定性高的特点。
随着深度学习技术的发展,出现了如average embedding、tfidf embedding、sif等非监督的基于词向量线性加权的文本相似度算法以及infersent、esim、bert等监督的基于深度学习的文本相似度算法,非监督的基于词向量模型的相似度算法总体效果略优于传统算法,但由于词向量模型所需内存较大(中文常达到7-8G),部署成本也相应增加,且与深度学习算法相比,精度较差。基于深度学习的文本相似度算法在固定场景下能够获得传统方法无法达到的效果。但是这类算法的跨场景迁移能力很差,同时需要大量数据样本训练,对系统配置要求高。
发明内容
本发明意在提供基于词性对齐的文本相似度计算方法,能够解决现有的文本相似度算法存在的需要大数据训练、计算复杂以及准确率低的问题。
本申请提供如下技术方案:
基于词性对齐的文本相似度计算方法,包括:
S100:对待计算的第一语句和第二语句进行分词;
S200:对第一语句和第二语句的分词进行词性标注;
S300:计算第一语句的分词和第二语句的分词之间的同义词关系,得到同义词矩阵;
S400:依次以第一语句和第二语句中出现的每一种词性为当前词性并执行步骤S401至步骤S404:
S401:从第一语句中提取当前词性对应的分词,得到第一分词序列;
S402:从第二语句中提取当前词性对应的分词,得到第二分词序列;
S403:根据同义词矩阵判断第一分词序列的各个分词与第二分词序列的各个分词之间的对应关系,根据对应关系得到当前词性下第一语句和第二语句的对齐结果;
S404:根据对齐结果统计当前词性的对齐特征;
S500:根据统计的对齐特征,按照预设公式计算文本相似度。
本发明技术方案中,通过语句之间分词的对齐结果来计算统计对齐特征,进而基于统计特征计算文本相似度,该方法是一种非监督文本相似度算法,相比目前非监督算法,准确率有明显的提高,逼近于采用了大数据训练的基于深度神经网络算法,相比于深度神经网络算法,本方案计算过程简单,不需要大数据训练,跨场景稳定性高。
进一步,所述对齐特征包括:词性为空、对齐总数、对齐程度以及词性权重。
词性为空表示当前词性是否为空,为空则在后续文本相似度计算时予以排除,避免产生误差,对齐总数表示第一语句和第二语句的同词性下分词的对应的总数量占比;对齐程度用于反应第一语句与第二语句同词性下分词的对齐程度;词性权重则用于反应当前词性在计算文本相似度时所占的权重大小。
进一步,所述预设公式为:
Figure BDA0002656100950000021
k=1,(pi[in]≥0)
k=pi[in],(pi[in]<0)
其中,s代表相似度,n为不为空的词性个数,pi[t]表示第i个词性的对齐总数,pi[r]表示第i个词性的词性权重,pi[in]表示第i个词性的对齐程度。
进一步,所述S300中,仅对同词性的分词进行同义词的计算。
进一步,所述S403具体包括:
S4031:依次判断第一分词序列的每个分词是否在第二分词序列中有对应的同义词,若是,则判定相应的分词已对齐,若否,则判定相应的分词未对齐;
S4032:依次判断第二分词序列的每个分词是否在第一分词序列中有对应的同义词,若是,则判定相应的分词已对齐,若否,则判定相应的分词未对齐。
进一步,S404具体包括:
S4041:统计第一分词序列和第二分词序列中已对齐的分词个数以及未对齐的分词的个数;
S4042:计算已对齐的分词个数占总分词个数的比例作为对齐总数。
进一步,所述S404还包括:
S4043:判断是否存在未对齐分词,若是,则执行S4044,若否,则令对齐程度为1;
S4044:判断是否第一分词序列和第二分词序列中均存在未对齐分词,若是,则执行S4045;若否,则令对齐程度为0;
S4045:计算第一分词序列中已对齐分词个数所占比例与第二分词序列中已对齐分词个数所占比例的乘积,以乘积乘以-1的结果作为对齐程度。
进一步,所述S404还包括:
S4046:将当前词性下第一分词序列和第二分词序列中分词的数量占第一语句和第二语句总的分词数量的比例作为当前词性权重。
进一步,还包括:
S600:根据文本相似度判断第一语句和第二语句是否相似。基于文本相似度,最终得到两个文本是否相似的结果。
附图说明
图1为本申请基于词性对齐的文本相似度计算方法实施例中的流程图;
图2为本申请基于词性对齐的文本相似度计算方法实施例中的对比实验结果图;
图3为本申请基于词性对齐的文本相似度计算方法实施例中另一对比实验结果图。
具体实施方式
下面通过具体实施方式进一步详细说明:
实施例一
如图1所示,本实施例的基于词性对齐的文本相似度计算方法,包括以下内容:
S100:对待计算的第一语句和第二语句进行分词。
S200:对第一语句和第二语句的分词进行词性标注。
S300:计算第一语句的分词和第二语句的分词之间的同义词关系,得到同义词矩阵。本实施例中,仅对同词性的分词进行同义词的计算。
S400:依次以第一语句和第二语句中出现的每一种词性为当前词性并执行步骤S401至步骤S404。
S401:从第一语句中提取当前词性对应的分词,得到第一分词序列。
S402:从第二语句中提取当前词性对应的分词,得到第二分词序列。
S403:根据同义词矩阵判断第一分词序列的各个分词与第二分词序列的各个分词之间的对应关系,根据对应关系得到当前词性下第一语句和第二语句的对齐结果。
S403具体包括:
S4031:依次判断第一分词序列的每个分词是否在第二分词序列中有对应的同义词,若是,则判定相应的分词已对齐,若否,则判定相应的分词未对齐;
S4032:依次判断第二分词序列的每个分词是否在第一分词序列中有对应的同义词,若是,则判定相应的分词已对齐,若否,则判定相应的分词未对齐。
S404:根据对齐结果统计当前词性的对齐特征;对齐特征包括:词性为空、对齐总数、对齐程度以及词性权重。词性为空表示当前词性是否为空,为空则在后续文本相似度计算时予以排除,避免产生误差,对齐总数表示第一语句和第二语句的同词性下分词的对应的总数量占比;对齐程度用于反应第一语句与第二语句同词性下分词的对齐程度;词性权重则用于反应当前词性在计算文本相似度时所占的权重大小。
S404具体包括:
S4041:统计第一分词序列和第二分词序列中已对齐的分词个数以及未对齐的分词的个数;
S4042:计算已对齐的分词个数占总分词个数的比例作为对齐总数。
S4043:判断是否存在未对齐分词,若是,则执行S4044,若否,则令对齐程度为1;
S4044:判断是否第一分词序列和第二分词序列中均存在未对齐分词,若是,则执行S4045;若否,则令对齐程度为0;
S4045:计算第一分词序列中已对齐分词个数所占比例与第二分词序列中已对齐分词个数所占比例的乘积,以乘积乘以-1的结果作为对齐程度。
S4046:将当前词性下第一分词序列和第二分词序列中分词的数量占第一语句和第二语句总的分词数量的比例作为当前词性权重。
S500:根据统计的对齐特征,按照预设公式计算文本相似度。本实施中,预设公式为:
Figure BDA0002656100950000051
k=1,(pi[in]≥0)
k=pi[in],(pi[in]<0)
其中,s代表相似度,n为不为空的词性个数,pi[t]表示第i个词性的对齐总数,pi[r]表示第i个词性的词性权重,pi[in]表示第i个词性的对齐程度。
S600:根据文本相似度判断第一语句和第二语句是否相似。
本实施中,采用了共30万对相似问句(包含了正负样本)进行实验,每个句子长度约为5-20字。采用了ltp分词,得到对应的共29个词性,以所有数据的一半来训练,另一半测试。本申请的算法模型与百度ai开放平台cnn、bow、grnn的测试结果如图2所示。与wmd相关算法、jasscard算法、意图相似度算法、编辑距离算法、bm25算法、sif算法对比的AUC结果如图3所示,其中,inter_union_score为jasscard算法,intent为意图相似度算法,edit为编辑距离算法,es为bm25算法,ctr是对齐特征fm的融合。可以看出,本实施例的对齐特征应用效果良好,加入到xgb或者fm中效果提升较明显(大约2%)。本实施例的文本相似度算法的AUC为0.725,在现有的非监督算法中分数最高,优于wmd和sif等非监督方法,本实施例的文本相似度算法计算简单,不需要大数据训练,跨场景稳定性高,是目前所有发现的文本相似度非监督算法中准确率最高的,逼近于采用大数据训练的基于深度神经网络算法。
以上的仅是本发明的实施例,该发明不限于此实施案例涉及的领域,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims (9)

1.基于词性对齐的文本相似度计算方法,其特征在于:包括以下步骤:
S100:对待计算的第一语句和第二语句进行分词;
S200:对第一语句和第二语句的分词进行词性标注;
S300:计算第一语句的分词和第二语句的分词之间的同义词关系,得到同义词矩阵;
S400:依次以第一语句和第二语句中出现的每一种词性为当前词性并执行步骤S401至步骤S404:
S401:从第一语句中提取当前词性对应的分词,得到第一分词序列;
S402:从第二语句中提取当前词性对应的分词,得到第二分词序列;
S403:根据同义词矩阵判断第一分词序列的各个分词与第二分词序列的各个分词之间的对应关系,根据对应关系得到当前词性下第一语句和第二语句的对齐结果;
S404:根据对齐结果统计当前词性的对齐特征;
S500:根据统计的对齐特征,按照预设公式计算文本相似度。
2.根据权利要求1所述的基于词性对齐的文本相似度计算方法,其特征在于:所述对齐特征包括:词性为空、对齐总数、对齐程度以及词性权重。
3.根据权利要求2所述的基于词性对齐的文本相似度计算方法,其特征在于:所述预设公式为:
Figure FDA0002656100940000011
k=1,(pi[in]≥0)
k=pi[in],(pi[in]<0)
其中,s代表相似度,n为不为空的词性个数,pi[t]表示第i个词性的对齐总数,pi[r]表示第i个词性的词性权重,pi[in]表示第i个词性的对齐程度。
4.根据权利要求3所述的基于词性对齐的文本相似度计算方法,其特征在于:所述S300中,仅对同词性的分词进行同义词的计算。
5.根据权利要求4所述的基于词性对齐的文本相似度计算方法,其特征在于:所述S403具体包括:
S4031:依次判断第一分词序列的每个分词是否在第二分词序列中有对应的同义词,若是,则判定相应的分词已对齐,若否,则判定相应的分词未对齐;
S4032:依次判断第二分词序列的每个分词是否在第一分词序列中有对应的同义词,若是,则判定相应的分词已对齐,若否,则判定相应的分词未对齐。
6.根据权利要求5所述的基于词性对齐的文本相似度计算方法,其特征在于:S404具体包括:
S4041:统计第一分词序列和第二分词序列中已对齐的分词个数以及未对齐的分词的个数;
S4042:计算已对齐的分词个数占总分词个数的比例作为对齐总数。
7.根据权利要求6所述的基于词性对齐的文本相似度计算方法,其特征在于:所述S404还包括:
S4043:判断是否存在未对齐分词,若是,则执行S4044,若否,则令对齐程度为1;
S4044:判断是否第一分词序列和第二分词序列中均存在未对齐分词,若是,则执行S4045;若否,则令对齐程度为0;
S4045:计算第一分词序列中已对齐分词个数所占比例与第二分词序列中已对齐分词个数所占比例的乘积,以乘积乘以-1的结果作为对齐程度。
8.根据权利要求7所述的基于词性对齐的文本相似度计算方法,其特征在于:所述S404还包括:
S4046:将当前词性下第一分词序列和第二分词序列中分词的数量占第一语句和第二语句总的分词数量的比例作为当前词性权重。
9.根据权利要求8所述的基于词性对齐的文本相似度计算方法,其特征在于:还包括:
S600:根据文本相似度判断第一语句和第二语句是否相似。
CN202010887857.5A 2020-08-28 2020-08-28 基于词性对齐的文本相似度计算方法 Active CN112016306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010887857.5A CN112016306B (zh) 2020-08-28 2020-08-28 基于词性对齐的文本相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010887857.5A CN112016306B (zh) 2020-08-28 2020-08-28 基于词性对齐的文本相似度计算方法

Publications (2)

Publication Number Publication Date
CN112016306A true CN112016306A (zh) 2020-12-01
CN112016306B CN112016306B (zh) 2023-10-20

Family

ID=73503917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010887857.5A Active CN112016306B (zh) 2020-08-28 2020-08-28 基于词性对齐的文本相似度计算方法

Country Status (1)

Country Link
CN (1) CN112016306B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130179169A1 (en) * 2012-01-11 2013-07-11 National Taiwan Normal University Chinese text readability assessing system and method
CN104679728A (zh) * 2015-02-06 2015-06-03 中国农业大学 一种文本相似度检测方法
US20170068665A1 (en) * 2014-03-07 2017-03-09 National Institute Of Information And Communications Technology Word alignment score computing apparatus, word alignment apparatus, and computer program
CN109492213A (zh) * 2017-09-11 2019-03-19 阿里巴巴集团控股有限公司 句子相似度计算方法和装置
CN110348007A (zh) * 2019-06-14 2019-10-18 北京奇艺世纪科技有限公司 一种文本相似度确定方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130179169A1 (en) * 2012-01-11 2013-07-11 National Taiwan Normal University Chinese text readability assessing system and method
US20170068665A1 (en) * 2014-03-07 2017-03-09 National Institute Of Information And Communications Technology Word alignment score computing apparatus, word alignment apparatus, and computer program
CN104679728A (zh) * 2015-02-06 2015-06-03 中国农业大学 一种文本相似度检测方法
CN109492213A (zh) * 2017-09-11 2019-03-19 阿里巴巴集团控股有限公司 句子相似度计算方法和装置
CN110348007A (zh) * 2019-06-14 2019-10-18 北京奇艺世纪科技有限公司 一种文本相似度确定方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
夏志明;刘新;: "一种基于语义的中文文本相似度算法", 计算机与现代化, no. 04, pages 6 - 9 *
尹宝生;杨阳;: "双向词典和语义相似度计算相结合的词对齐算法", 沈阳航空航天大学学报, no. 02, pages 69 - 76 *

Also Published As

Publication number Publication date
CN112016306B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
US20230016365A1 (en) Method and apparatus for training text classification model
CN108682417B (zh) 语音识别中的小数据语音声学建模方法
CN112990296B (zh) 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
WO2020143163A1 (zh) 基于注意力机制的命名实体识别方法、装置和计算机设备
CN109902307A (zh) 命名实体识别方法、命名实体识别模型的训练方法及装置
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN101295295A (zh) 基于线性模型的汉语词法分析方法
CN112686040B (zh) 一种基于图循环神经网络的事件事实性检测方法
EP4394759A1 (en) Artificial intelligence-based audio processing method and apparatus, electronic device, computer program product, and computer-readable storage medium
CN110705253A (zh) 基于迁移学习的缅甸语依存句法分析方法及装置
CN111489746A (zh) 一种基于bert的电网调度语音识别语言模型构建方法
CN113672731A (zh) 基于领域信息的情感分析方法、装置、设备及存储介质
CN113657098A (zh) 文本纠错方法、装置、设备及存储介质
WO2023045186A1 (zh) 意图识别方法、装置、电子设备和存储介质
CN114398900A (zh) 一种基于RoBERTa模型的长文本语义相似度计算方法
CN112183060B (zh) 多轮对话系统的指代消解方法
CN112016306B (zh) 基于词性对齐的文本相似度计算方法
Xie et al. L2 mispronunciation verification based on acoustic phone embedding and siamese networks
Stahlberg et al. Word segmentation and pronunciation extraction from phoneme sequences through cross-lingual word-to-phoneme alignment
CN110826329A (zh) 一种基于困惑度的自动作文评分方法
CN115525749A (zh) 语音问答方法、装置、电子设备和存储介质
Yousif Neural computing based part of speech tagger for Arabic language: a review study
WO2022251720A1 (en) Character-level attention neural networks
CN116090449A (zh) 一种质量问题分析报告的实体关系抽取方法及系统
CN115310432A (zh) 一种错别字检测及纠正方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240318

Address after: No. 88-1101 Zhongshan Road, Gejiu City, Honghe Hani and Yi Autonomous Prefecture, Yunnan Province, 661099

Patentee after: Gejiu City Radio and Television Information Network Technology Co.,Ltd.

Country or region after: China

Address before: Room B2-4, 3rd Floor, Building 11, Internet Industrial Park, No. 106 Jinkai Avenue West Section, Yubei District, Chongqing, 400000

Patentee before: CHONGQING XIEZHI TECHNOLOGY Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right