CN105183714A - 句子相似度计算方法及装置 - Google Patents

句子相似度计算方法及装置 Download PDF

Info

Publication number
CN105183714A
CN105183714A CN201510536882.8A CN201510536882A CN105183714A CN 105183714 A CN105183714 A CN 105183714A CN 201510536882 A CN201510536882 A CN 201510536882A CN 105183714 A CN105183714 A CN 105183714A
Authority
CN
China
Prior art keywords
sentences
word
similarity
cos distance
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510536882.8A
Other languages
English (en)
Inventor
唐聪
宋文略
杨晓昊
许轶
肖迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Focusedu International Education Consultation Co Ltd
Original Assignee
Beijing Focusedu International Education Consultation Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Focusedu International Education Consultation Co Ltd filed Critical Beijing Focusedu International Education Consultation Co Ltd
Priority to CN201510536882.8A priority Critical patent/CN105183714A/zh
Publication of CN105183714A publication Critical patent/CN105183714A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种句子相似度计算方法及装置,涉及自动批改技术领域,所述方法包括:获取各词语对应的向量;对待比较的两个句子进行句法分析,以获得所述两个句子中组成各成分的词语;计算所述两个句子中组成相应成分的词语对应向量之间的第一余弦距离;根据所述第一余弦距离确定所述两个句子之间的相似度。本发明通过对句子进行句法分析,从结构方面把握句子的语义,从而更加准确地计算句子之间的近似度,另外,采用了基于神经网络模型的词向量来表示词语,从而更加准确计算词语之间的近似程度,而且摆脱了近义词字典的限制。

Description

句子相似度计算方法及装置
技术领域
本发明涉及自动批改技术领域,特别涉及一种句子相似度计算方法及装置。
背景技术
在英语作文自动批改中,有一项重要因素是计算作文的切题程度。现有的技术方法主要是通过作文各段的主旨句和作文的题目进行英文字符的匹配,出现相同英文字符的多少反映了主旨句和题目的近似程度的大小,从而反映了作文切题程度的大小。但统计相同英文字符不具有一般性,同一种语义可以用不同的词语来表达,因此现在更前沿的方法是建立近义词表,结合近义词表进行匹配。
但现有技术中,句子之间的匹配是把句子看作孤立词的单词来进行匹配的,没有考虑到句子结构,这导致对句子的语义的把握不准确。例如:英文句子“Mymotherhasacatwithfourlegs.”(句子1)和“Mymotherhasfourlegs.”(句子2)。如果不考虑句子结构,从孤立的单词来比较,两个句子只差两个重要单词“with”和“cat”,但是从实际语义来看,两个句子相差很大,导致句子相似度准确率过低。
发明内容
为提高计算句子相似度的准确率,本发明提供了一种句子相似度计算方法,所述方法包括:
获取各词语对应的向量;
对待比较的两个句子进行句法分析,以获得所述两个句子中组成各成分的词语;
计算所述两个句子中组成相应成分的词语对应向量之间的第一余弦距离;
根据所述第一余弦距离确定所述两个句子之间的相似度。
其中,所述获取各词语对应的向量,进一步包括:
对自然语言语料通过词向量工具进行训练,以获取各词语对应的向量。
其中,所述对自然语言语料通过词向量工具进行训练,进一步包括:
对自然语言语料通过词向量工具采用三层神经网络模型进行训练。
其中,所述对待比较的两个句子进行句法分析,以获得所述两个句子组成各成分的词语,进一步包括:
对所述两个句子进行句法分析,以获得所述两个句子的句法树,所述句法树包括句子中组成各成分的词语。
其中,所述根据所述第一余弦距离确定所述两个句子之间的相似度,进一步包括:
将所述第一余弦距离进行加权平均,以获得第二余弦距离,将所述第二余弦距离作为所述两个句子之间的相似度。
本发明还公开了一种句子相似度计算装置,所述装置包括:
向量获取单元,用于获取各词语对应的向量;
句法分析单元,用于对待比较的两个句子进行句法分析,以获得所述两个句子中组成各成分的词语;
距离计算单元,用于计算所述两个句子中组成相应成分的词语对应向量之间的第一余弦距离;
相似度确定单元,用于根据所述第一余弦距离确定所述两个句子之间的相似度。
其中,所述向量获取单元,进一步用于对自然语言语料通过词向量工具进行训练,以获取各词语对应的向量。
其中,所述向量获取单元,进一步用于对自然语言语料通过词向量工具采用三层神经网络模型进行训练。
其中,所述句法分析单元,进一步用于对所述两个句子进行句法分析,以获得所述两个句子的句法树,所述句法树包括句子中组成各成分的词语。
其中,所述相似度确定单元,进一步用于将所述第一余弦距离进行加权平均,以获得第二余弦距离,将所述第二余弦距离作为所述两个句子之间的相似度。
本发明通过对句子进行句法分析,从结构方面把握句子的语义,从而更加准确地计算句子之间的近似度,另外,采用了基于神经网络模型的词向量来表示词语,从而更加准确计算词语之间的近似程度,而且摆脱了近义词字典的限制。
附图说明
图1是本发明一种实施方式的句子相似度计算方法的流程图;
图2是两个英语句子的句法树的结构示意图;
图3是本发明一种实施方式的句子相似度计算装置的结构框图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1是本发明一种实施方式的句子相似度计算方法的流程图;参照图1,所述方法包括:
S101:获取各词语对应的向量;
在现有技术中,近义词表的建立基本是靠字典进行手工整理,工作量大,而且存在覆盖面不广的问题,词语之间的近似程度也很难量化,为克服该问题,并快速获取各词语对应的向量,从而便于通过词语对应向量之间的余弦距离来反映词语之间的近似程度,本实施方式中,可对自然语言语料通过词向量工具(例如:word2vec等工具)进行训练,以获取各词语对应的向量。
在训练后训练之后,每个词语可以用一个向量来表示(通常为50维),两个词语之间的近似程度通过对应的向量之间的余弦距离来衡量。余弦距离越小,代表两个词语近似程度越小;余弦距离越大,代表两个词语近似程度越大。
为了保证词语对应的向量的准确性,所述词向量工具可采用三层神经网络模型进行训练,当然,还可采用其他模型进行训练,本实施方式对此不加以限制。
S102:对待比较的两个句子进行句法分析,以获得所述两个句子中组成各成分的词语;
为便于比较这两个句子,可对所述两个句子进行句法分析,以获得所述两个句子的句法树,所述句法树包括句子中组成各成分(即主语、谓语、宾语、从句等成分)的词语,参照图2,以英文句子“Mymotherhasacatwithfourlegs”(句子1)和“Mymotherhasfourlegs”(句子2)为例可知;
句子1中组成各成分的词语为:组成主语(SBJ)的词语为mymother,组成谓语(VB)的词语为has,组成宾语(OBJ)的词语为acat,以及宾语补足语(NC)的词语为fourlegs;
句子2中组成各成分的词语为:组成主语(SBJ)的词语为mymother,组成谓语(VB)的词语为has,组成宾语(OBJ)的词语为fourlegs。
S103:计算所述两个句子中组成相应成分的词语对应向量之间的第一余弦距离;
需要说明的是,在计算第一余弦距离时,需要针对相同成分的词语进行计算,以上述两个句子为例,则计算两个句子的组成主语的词语对应向量之间的第一余弦距离,组成谓语的词语对应向量之间的第一余弦距离,以及组成宾语的词语对应向量之间的第一余弦距离。
S104:根据所述第一余弦距离确定所述两个句子之间的相似度。
在具体实现中,获得各第一余弦距离后,即可确定所述两个句子之间的相似度,但为了进一步提高相似度的正确性,本实施方式中,将所述第一余弦距离进行加权平均,以获得第二余弦距离,将所述第二余弦距离作为所述两个句子之间的相似度,当然,在计算第二余弦距离时,还可采用其他方式,例如,不考虑加权,直接进行平均计算,本实施方式对此不加以限制。
可理解的是,所述第二余弦距离即可衡量两个句子之间的近似程度,第二余弦距离越小,则代表两个句子之间近似程度越小;第二余弦距离越大,则代表两个句子之间近似程度越大。
本实施方式通过对句子进行句法分析,从结构方面把握句子的语义,从而更加准确地计算句子之间的近似度,另外,采用了基于神经网络模型的词向量来表示词语,从而更加准确计算词语之间的近似程度,而且摆脱了近义词字典的限制。
图3是本发明一种实施方式的句子相似度计算装置的结构框图;参照图3,所述装置包括:
向量获取单元301,用于获取各词语对应的向量;
句法分析单元302,用于对待比较的两个句子进行句法分析,以获得所述两个句子中组成各成分的词语;
距离计算单元303,用于计算所述两个句子中组成相应成分的词语对应向量之间的第一余弦距离;
相似度确定单元304,用于根据所述第一余弦距离确定所述两个句子之间的相似度。
可选地,所述向量获取单元,进一步用于对自然语言语料通过词向量工具进行训练,以获取各词语对应的向量。
可选地,所述向量获取单元,进一步用于对自然语言语料通过词向量工具采用三层神经网络模型进行训练。
可选地,所述句法分析单元,进一步用于对所述两个句子进行句法分析,以获得所述两个句子的句法树,所述句法树包括句子中组成各成分的词语。
可选地,所述相似度确定单元,进一步用于将所述第一余弦距离进行加权平均,以获得第二余弦距离,将所述第二余弦距离作为所述两个句子之间的相似度。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (10)

1.一种句子相似度计算方法,其特征在于,所述方法包括:
获取各词语对应的向量;
对待比较的两个句子进行句法分析,以获得所述两个句子中组成各成分的词语;
计算所述两个句子中组成相应成分的词语对应向量之间的第一余弦距离;
根据所述第一余弦距离确定所述两个句子之间的相似度。
2.如权利要求1所述的方法,其特征在于,所述获取各词语对应的向量,进一步包括:
对自然语言语料通过词向量工具进行训练,以获取各词语对应的向量。
3.如权利要求2所述的方法,其特征在于,所述对自然语言语料通过词向量工具进行训练,进一步包括:
对自然语言语料通过词向量工具采用三层神经网络模型进行训练。
4.如权利要求1~3中任一项所述的方法,其特征在于,所述对待比较的两个句子进行句法分析,以获得所述两个句子组成各成分的词语,进一步包括:
对所述两个句子进行句法分析,以获得所述两个句子的句法树,所述句法树包括句子中组成各成分的词语。
5.如权利要求1~3中任一项所述的方法,其特征在于,所述根据所述第一余弦距离确定所述两个句子之间的相似度,进一步包括:
将所述第一余弦距离进行加权平均,以获得第二余弦距离,将所述第二余弦距离作为所述两个句子之间的相似度。
6.一种句子相似度计算装置,其特征在于,所述装置包括:
向量获取单元,用于获取各词语对应的向量;
句法分析单元,用于对待比较的两个句子进行句法分析,以获得所述两个句子中组成各成分的词语;
距离计算单元,用于计算所述两个句子中组成相应成分的词语对应向量之间的第一余弦距离;
相似度确定单元,用于根据所述第一余弦距离确定所述两个句子之间的相似度。
7.如权利要求6所述的装置,其特征在于,所述向量获取单元,进一步用于对自然语言语料通过词向量工具进行训练,以获取各词语对应的向量。
8.如权利要求7所述的装置,其特征在于,所述向量获取单元,进一步用于对自然语言语料通过词向量工具采用三层神经网络模型进行训练。
9.如权利要求6~8中任一项所述的装置,其特征在于,所述句法分析单元,进一步用于对所述两个句子进行句法分析,以获得所述两个句子的句法树,所述句法树包括句子中组成各成分的词语。
10.如权利要求6~8中任一项所述的装置,其特征在于,所述相似度确定单元,进一步用于将所述第一余弦距离进行加权平均,以获得第二余弦距离,将所述第二余弦距离作为所述两个句子之间的相似度。
CN201510536882.8A 2015-08-27 2015-08-27 句子相似度计算方法及装置 Pending CN105183714A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510536882.8A CN105183714A (zh) 2015-08-27 2015-08-27 句子相似度计算方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510536882.8A CN105183714A (zh) 2015-08-27 2015-08-27 句子相似度计算方法及装置

Publications (1)

Publication Number Publication Date
CN105183714A true CN105183714A (zh) 2015-12-23

Family

ID=54905803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510536882.8A Pending CN105183714A (zh) 2015-08-27 2015-08-27 句子相似度计算方法及装置

Country Status (1)

Country Link
CN (1) CN105183714A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653671A (zh) * 2015-12-29 2016-06-08 畅捷通信息技术股份有限公司 相似信息推荐方法及系统
CN105930413A (zh) * 2016-04-18 2016-09-07 北京百度网讯科技有限公司 相似度模型参数的训练方法、搜索处理方法及对应装置
CN106021223A (zh) * 2016-05-09 2016-10-12 Tcl集团股份有限公司 一种句子相似度的计算方法及系统
CN106202395A (zh) * 2016-07-11 2016-12-07 上海智臻智能网络科技股份有限公司 文本聚类方法和装置
CN107730002A (zh) * 2017-10-13 2018-02-23 国网湖南省电力公司 一种通信网关机遥控参数智能模糊比对方法
CN107844608A (zh) * 2017-12-06 2018-03-27 湖南大学 一种基于词向量的句子相似度比较方法
CN108268441A (zh) * 2017-01-04 2018-07-10 科大讯飞股份有限公司 句子相似度计算方法和装置及系统
WO2018153217A1 (zh) * 2017-02-27 2018-08-30 芋头科技(杭州)有限公司 一种句子相似度判断方法
CN109117474A (zh) * 2018-06-25 2019-01-01 广州多益网络股份有限公司 语句相似度的计算方法、装置及存储介质
CN109492213A (zh) * 2017-09-11 2019-03-19 阿里巴巴集团控股有限公司 句子相似度计算方法和装置
CN109766547A (zh) * 2018-12-26 2019-05-17 重庆邮电大学 一种句子相似度计算方法
CN109871437A (zh) * 2018-11-30 2019-06-11 阿里巴巴集团控股有限公司 用于用户问题语句处理的方法及装置
CN110309263A (zh) * 2019-06-06 2019-10-08 中国人民解放军军事科学院军事科学信息研究中心 一种基于语义的工作属性文本内容冲突判断方法及装置
CN111414765A (zh) * 2020-03-20 2020-07-14 北京百度网讯科技有限公司 句子一致性的判定方法、装置、电子设备及可读存储介质
US10922486B2 (en) 2019-03-13 2021-02-16 International Business Machines Corporation Parse tree based vectorization for natural language processing
US20210209311A1 (en) * 2018-11-28 2021-07-08 Ping An Technology (Shenzhen) Co., Ltd. Sentence distance mapping method and apparatus based on machine learning and computer device
CN113392630A (zh) * 2021-07-01 2021-09-14 浙江工业大学 一种基于语义分析的中文句子相似度计算方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1741012A (zh) * 2004-08-23 2006-03-01 富士施乐株式会社 文本检索装置及方法
US20090204605A1 (en) * 2008-02-07 2009-08-13 Nec Laboratories America, Inc. Semantic Search Via Role Labeling
CN103218432A (zh) * 2013-04-15 2013-07-24 北京邮电大学 一种基于命名实体识别的新闻搜索结果相似度计算方法
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1741012A (zh) * 2004-08-23 2006-03-01 富士施乐株式会社 文本检索装置及方法
US20090204605A1 (en) * 2008-02-07 2009-08-13 Nec Laboratories America, Inc. Semantic Search Via Role Labeling
CN103218432A (zh) * 2013-04-15 2013-07-24 北京邮电大学 一种基于命名实体识别的新闻搜索结果相似度计算方法
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
王庆林,张九天: "《气候变化领域本体手册》", 1 May 2015, 北京理工大学出版社 *
郑诚,夏青松,孙昌年: "一种基于成分的句子相似度计算", 《计算机技术与发展》 *
马刚: "《基于语义的Web数据挖掘》", 31 January 2014, 东北财经大学出版社 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653671A (zh) * 2015-12-29 2016-06-08 畅捷通信息技术股份有限公司 相似信息推荐方法及系统
CN105930413A (zh) * 2016-04-18 2016-09-07 北京百度网讯科技有限公司 相似度模型参数的训练方法、搜索处理方法及对应装置
CN106021223A (zh) * 2016-05-09 2016-10-12 Tcl集团股份有限公司 一种句子相似度的计算方法及系统
CN106021223B (zh) * 2016-05-09 2020-06-23 Tcl科技集团股份有限公司 一种句子相似度的计算方法及系统
CN106202395A (zh) * 2016-07-11 2016-12-07 上海智臻智能网络科技股份有限公司 文本聚类方法和装置
CN106202395B (zh) * 2016-07-11 2019-12-31 上海智臻智能网络科技股份有限公司 文本聚类方法和装置
CN108268441B (zh) * 2017-01-04 2021-06-22 科大讯飞股份有限公司 句子相似度计算方法和装置及系统
CN108268441A (zh) * 2017-01-04 2018-07-10 科大讯飞股份有限公司 句子相似度计算方法和装置及系统
CN108509408A (zh) * 2017-02-27 2018-09-07 芋头科技(杭州)有限公司 一种句子相似度判断方法
US10949709B2 (en) 2017-02-27 2021-03-16 Yutou Technology (Hangzhou) Co., Ltd. Method for determining sentence similarity
CN108509408B (zh) * 2017-02-27 2019-11-22 芋头科技(杭州)有限公司 一种句子相似度判断方法
WO2018153217A1 (zh) * 2017-02-27 2018-08-30 芋头科技(杭州)有限公司 一种句子相似度判断方法
CN109492213A (zh) * 2017-09-11 2019-03-19 阿里巴巴集团控股有限公司 句子相似度计算方法和装置
CN107730002B (zh) * 2017-10-13 2020-06-02 国网湖南省电力公司 一种通信网关机遥控参数智能模糊比对方法
CN107730002A (zh) * 2017-10-13 2018-02-23 国网湖南省电力公司 一种通信网关机遥控参数智能模糊比对方法
CN107844608B (zh) * 2017-12-06 2021-11-30 湖南大学 一种基于词向量的句子相似度比较方法
CN107844608A (zh) * 2017-12-06 2018-03-27 湖南大学 一种基于词向量的句子相似度比较方法
CN109117474A (zh) * 2018-06-25 2019-01-01 广州多益网络股份有限公司 语句相似度的计算方法、装置及存储介质
US20210209311A1 (en) * 2018-11-28 2021-07-08 Ping An Technology (Shenzhen) Co., Ltd. Sentence distance mapping method and apparatus based on machine learning and computer device
CN109871437A (zh) * 2018-11-30 2019-06-11 阿里巴巴集团控股有限公司 用于用户问题语句处理的方法及装置
CN109871437B (zh) * 2018-11-30 2023-04-21 阿里巴巴集团控股有限公司 用于用户问题语句处理的方法及装置
CN109766547A (zh) * 2018-12-26 2019-05-17 重庆邮电大学 一种句子相似度计算方法
CN109766547B (zh) * 2018-12-26 2022-10-18 重庆邮电大学 一种句子相似度计算方法
US10922486B2 (en) 2019-03-13 2021-02-16 International Business Machines Corporation Parse tree based vectorization for natural language processing
CN110309263A (zh) * 2019-06-06 2019-10-08 中国人民解放军军事科学院军事科学信息研究中心 一种基于语义的工作属性文本内容冲突判断方法及装置
CN111414765A (zh) * 2020-03-20 2020-07-14 北京百度网讯科技有限公司 句子一致性的判定方法、装置、电子设备及可读存储介质
CN113392630A (zh) * 2021-07-01 2021-09-14 浙江工业大学 一种基于语义分析的中文句子相似度计算方法和系统

Similar Documents

Publication Publication Date Title
CN105183714A (zh) 句子相似度计算方法及装置
CN103970765B (zh) 一种改错模型训练方法、装置和文本改错方法、装置
WO2019179022A1 (zh) 文本数据质检方法、装置、设备及计算机可读存储介质
CN103377226B (zh) 一种智能检索方法及其系统
CN103885938A (zh) 基于用户反馈的行业拼写错误检查方法
CN104731774B (zh) 面向通用机译引擎的个性化翻译方法及装置
CN103106189B (zh) 一种挖掘同义属性词的方法和装置
CN107239574B (zh) 一种智能问答系统知识-问题匹配的方法及装置
CN105843801A (zh) 多译本平行语料库的构建系统
CN102567306B (zh) 一种不同语言间词汇相似度的获取方法及系统
CN106875949A (zh) 一种语音识别的校正方法及装置
CN105930319A (zh) 建立获取题目知识点模型、获取题目知识点的方法和装置
CN108153730A (zh) 一种多义词词向量训练方法及装置
CN108959630A (zh) 一种面向英文无结构文本的人物属性抽取方法
CN108304317A (zh) 一种基于路径执行频率的单过程程序静态切片方法及系统
CN104699595A (zh) 一种面向软件升级的软件测试方法
CN114706986A (zh) 一种多类别情感分类方法、装置以及计算机存储介质
Munk et al. Detecting errors in machine translation using residuals and metrics of automatic evaluation
CN104298657A (zh) 基于表达式的评价指标解析系统
CN114936271A (zh) 自然语言转换数据库查询语句的方法、设备及介质
Zhang et al. Chinese sentence based lexical similarity measure for artificial intelligence chatbot
Shen et al. Annotation of spatial relations in natural language
Song Phraseological analysis of learner corpus based on language model
Qi et al. SCIR-QA at SemEval-2017 task 3: CNN model based on similar and dissimilar information between keywords for question similarity
CN110889273A (zh) 数据处理方法、数据处理装置、存储介质和电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20151223

RJ01 Rejection of invention patent application after publication