CN110705248A - 一种文本相似度计算方法、终端设备及存储介质 - Google Patents
一种文本相似度计算方法、终端设备及存储介质 Download PDFInfo
- Publication number
- CN110705248A CN110705248A CN201910954112.3A CN201910954112A CN110705248A CN 110705248 A CN110705248 A CN 110705248A CN 201910954112 A CN201910954112 A CN 201910954112A CN 110705248 A CN110705248 A CN 110705248A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- text data
- weight
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种文本相似度计算方法、终端设备及存储介质,该方法中包括:S1:将待比对的两个文本数据进行预处理;S2:将预处理后的两个文本数据进行同义词归一化操作;S3:计算每个文本数据的文本向量;S4:将两个文本数据的文本向量共同组成文本矩阵X,对该文本矩阵X进行奇异值分解,并计算文本矩阵X中去除主要成分后的矩阵Y;S5:从矩阵Y中提取出两个文本数据对应的向量作为其优选文本向量,根据每个文本数据对应的优选文本向量计算两个文本数据之间的相似度。本发明考虑了同一领域范围内,某一词出现的频率越高,则等同于其重要性越低的问题,且在去除无意义信息的同时,保持该领域内的关键词信息,从而提升相似度计算的准确度。
Description
技术领域
本发明涉及文本相似度领域,尤其涉及一种文本相似度计算方法、终端设备及存储介质。
背景技术
随着计算机对文本信息等各种自然语言处理应用的普及,人们需要一个有效且准确的方法来计算两个文本或句子之间的文本相似度,即计算机文本相似度计算方法。尤其,短文本相似度的计算具有十分重要的作用,它的应用能极大地提高系统自动问答的精度。
在通常的相似度算法思想中,一种主流的思想是,在语料库中出现次数越高的词,其含有的特征信息越少,因此在计算句子的句向量时,将会出现频率较高的词所占的权重下调。在未限定领域范围自动问答的环境下,这种操作能够去除一些文本中的噪声,从而提升相似度计算的准确度。然而,当处要求在领域范围内进行自动问答时,由于一些领域关键词的出现率也通常较高,因此这种操作反而降低了相似度算法准确性。
发明内容
为了解决上述文本,本发明提出了一种文本相似度计算方法、终端设备及存储介质。
具体方案如下:
一种文本相似度计算方法,包括以下步骤:
S1:将待比对的两个文本数据进行预处理,所述预处理包括分词和去除无意义词;
S2:将预处理后的两个文本数据中所有具有相同意义或相近意义的词均替换为一个相同的词,该相同的词为与被替换词具有相同意义或相近意义的词;
S3:计算每个文本数据的文本向量;
S4:将两个文本数据的文本向量共同组成文本矩阵X,对该文本矩阵X进行奇异值分解变换为三个矩阵U、∑、Vτ:
X=U·∑·Vτ
并计算文本矩阵X中去除主要成分后的矩阵Y:
Y=X-X·V·Vτ
其中,V为Vτ的转置矩阵;
S5:从矩阵Y中提取出两个文本数据对应的向量作为其优选文本向量,根据每个文本数据对应的优选文本向量计算两个文本数据之间的相似度。
进一步的,步骤S3中每个文本数据的文本向量的计算过程为:
S31:计算文本数据中每个词的词向量;
S32:计算该词在文本数据中的权重;
S33:根据文本数据中每个词的词向量和该词在文本数据中的权重,计算该文本数据的文本向量。
进一步的,步骤S32中每个词在文本数据中的权重为由词频权重、词性权重和领域调节权重三者构成,其中词频权重考虑该词在语料库中的频率;词性权重考虑该词的词性和其所在领域内所有关键词在语料库中的频率的平均值;领域调节权重考虑该词在对应领域内的重要程度。
进一步的,词频权重Wf的计算公式为:
其中,α为调节常数,P为该词在语料库中的词频。
进一步的,词性权重Wk的计算公式为:
进一步的,步骤S33中文本数据的文本向量的计算方法为:
其中,PS表示文本数据S的文本向量,i表示文本数据中的第i个词,n表示文本数据中词的个数,Wi为文本数据中第i个词的权重,Vi表示文本数据中第i个词的词向量。
进一步的,步骤S5中两个文本数据之间的相似度s的计算公式为:
其中,Pi、Pj分别表示两个文本数据的优选文本向量,||·||表示求模运算。
一种文本相似度计算终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。
本发明采用如上技术方案,考虑了同一领域范围内,某一词出现的频率越高,则等同于其重要性越低的问题,且在去除无意义信息的同时,保持该领域内的关键词信息,从而提升相似度计算的准确度。
附图说明
图1所示为本发明实施例一的流程图。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。
现结合附图和具体实施方式对本发明进一步说明。
实施例一:
本发明实施例提供了一种文本相似度计算方法,如图1所示,包括以下步骤:
S1:对文本数据进行预处理。
该实施例中,所述预处理包括但不限于分词和去停用词。
所述分词即为将文本数据按照一定的规范重新组合成词的序列,分词采用现有的算法处理即可。
在分词之后的结果中,往往可能存在一些不具有具体含义的字符或词,比如语气词(啊、呀等)、标点符号(逗号、句号等)等,这些不具有具体含义的字符或词在文本实际内容的获取中起干扰作用,因此还需要将这些停用词去除。
该实施例中去停用词的方法为设置停用词词典,将常用的停用词添加至停用词词典内,在一些特别的应用场景下,可以手动对停用词词典中的内容进行增加或删除。在其他的实施例中,去停用词也可以采用其他的方法,在此不做限制。
S2:对预处理后的两个文本数据进行同义词归一化操作,所述同义词归一化操作为将具有相同意义或相近意义的词均替换为一个相同的词,该相同的词为与被替换词具有相同意义或相近意义的词。
该实施例中设置同义词词典,在同义词词典中,所有具有相同意思或相近意思的词全部与某一个与这些词具有相同意思或相近意思的词相对应,如电视、电视机、TV三个词全部指向同一个词即电视/电视机/TV,该指向的词为上述同意词或近义词中的任意一个。
通过同义词归一化操作,可以减小相似度计算过程中的误差。
S3:计算每个文本数据的文本向量。
该实施例中,步骤S3包括以下步骤:
S31:计算文本数据中每个词的词向量。
所述词向量可以根据具体的场景需求来选用集体的生成方法,如通过Word2Vec、FastText进行词向量的生成。
S32:计算该词在文本数据中的权重W。
该实施例中,所述权重W由三部分组成,分别为词频权重Wf、词性权重Wk和领域调节权重Wa,其中:
(1)词频权重Wf根据该词在语料库中出现的频率进行计算,具体计算公式为:
其中,α为调节常数,本领域技术人员根据经验进行设定;P为该词在语料库中出现的频率,即词的词频。
(2)词性权重Wk根据该词在领域词典中的词性(动词、名词等)和词频得到,其具体的计算公式为:
领域词典中包含的词为该领域内的关键词,其内容主要由本领域专家筛选设定。
(3)领域调节权重Wa表示在对应领域内该词的重要程度。
领域词典中包含的的词是根据分析该领域内的文本,统计出现的高频词,再由人工,通常是领域专家筛选设定的词典,不同的词在该领域内的权重不同,即为该领域调节权重Wa,该权重通常由人工(最好是领域专家)设定,该实施例中设定的范围为[1,2],如该词在领域词典内不存在时,则其领域调节权重Wa设为默认值,该实施例中默认值为1。
因此,该词的权重W的计算公式为:
W=WfWaWk
S33:根据文本数据中每个词的词向量和该词在文本数据中的权重,计算该文本数据S的文本向量PS。
其中,i表示文本数据中的第i个词,即词的序号,n表示文本数据中词的个数,Wi为文本数据中第i个词的权重,Vi表示文本数据中第i个词的词向量。
S4:将两个文本数据的文本向量共同组成文本矩阵X,对该文本矩阵X进行奇异值分解:
X=U·∑·Vτ
其中,得到的矩阵Vτ为文本矩阵X的最大主成分,在文本矩阵X中文本的主题普遍相近的情况下,通过下式计算的文本矩阵X中去除主要成分后的矩阵Y,其通过去除主成分能够移除无意义的信息,即对相似度计算影响较小的信息,增大计算的准确度。
Y=X-X·V·Vτ
其中,V为Vτ的转置矩阵,矩阵Y为文本矩阵X去主成分后的剩余部分形成的矩阵。
S5:从矩阵Y中提取出两个文本数据对应的向量作为其优选文本向量,根据每个文本数据对应的优选文本向量计算两个文本数据之间的相似度。
该实施例中采用的相似度计算公式为:
其中,s表示两个文本数据之间的相似度,Pi、Pj分别表示两个文本数据的优选文本向量,||·||表示求模运算。
本发明实施例一考虑了同一领域范围内,某一词出现的频率越高,则等同于其重要性越低的问题,且在去除无意义信息的同时,保持该领域内的关键词信息,从而提升相似度计算的准确度。该实施例中实现上述目的的主要手段就是系统中维护的领域词典,其记载了该领域内的关键词和相应的权重信息,通过多种权重的结合,来提升相似度计算的准确度。
实施例二:
本发明还提供一种文本相似度计算终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。
进一步地,作为一个可执行方案,所述文本相似度计算终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述文本相似度计算终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,上述文本相似度计算终端设备的组成结构仅仅是文本相似度计算终端设备的示例,并不构成对文本相似度计算终端设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述文本相似度计算终端设备还可以包括输入输出设备、网络接入设备、总线等,本发明实施例对此不做限定。
进一步地,作为一个可执行方案,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述文本相似度计算终端设备的控制中心,利用各种接口和线路连接整个文本相似度计算终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述文本相似度计算终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。
所述文本相似度计算终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)以及软件分发介质等。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
Claims (9)
1.一种文本相似度计算方法,其特征在于,包括以下步骤:
S1:将待比对的两个文本数据进行预处理,所述预处理包括分词和去除无意义词;
S2:将预处理后的两个文本数据中所有具有相同意义或相近意义的词均替换为一个相同的词,该相同的词为与被替换词具有相同意义或相近意义的词;
S3:计算每个文本数据的文本向量;
S4:将两个文本数据的文本向量共同组成文本矩阵X,对该文本矩阵X进行奇异值分解变换为三个矩阵U、∑、Vτ:
X=U·∑·Vτ
并计算文本矩阵X中去除主要成分后的矩阵Y:
Y=X-X·V·Vτ
其中,V为Vτ的转置矩阵;
S5:从矩阵Y中提取出两个文本数据对应的向量作为其优选文本向量,根据每个文本数据对应的优选文本向量计算两个文本数据之间的相似度。
2.根据权利要求1所述的文本相似度计算方法,其特征在于:步骤S3中每个文本数据的文本向量的计算过程为:
S31:计算文本数据中每个词的词向量;
S32:计算该词在文本数据中的权重;
S33:根据文本数据中每个词的词向量和该词在文本数据中的权重,计算该文本数据的文本向量。
3.根据权利要求2所述的文本相似度计算方法,其特征在于:步骤S32中每个词在文本数据中的权重为由词频权重、词性权重和领域调节权重三者构成,其中词频权重考虑该词在语料库中的频率;词性权重考虑该词的词性和其所在领域内所有关键词在语料库中的频率的平均值;领域调节权重考虑该词在对应领域内的重要程度。
8.一种文本相似度计算终端设备,其特征在于:包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~7中任一所述方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~7中任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910954112.3A CN110705248A (zh) | 2019-10-09 | 2019-10-09 | 一种文本相似度计算方法、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910954112.3A CN110705248A (zh) | 2019-10-09 | 2019-10-09 | 一种文本相似度计算方法、终端设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110705248A true CN110705248A (zh) | 2020-01-17 |
Family
ID=69198929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910954112.3A Pending CN110705248A (zh) | 2019-10-09 | 2019-10-09 | 一种文本相似度计算方法、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110705248A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368037A (zh) * | 2020-03-06 | 2020-07-03 | 平安科技(深圳)有限公司 | 基于Bert模型的文本相似度计算方法和装置 |
CN111476026A (zh) * | 2020-03-24 | 2020-07-31 | 珠海格力电器股份有限公司 | 语句向量的确定方法、装置、电子设备及存储介质 |
CN111859901A (zh) * | 2020-07-15 | 2020-10-30 | 大连理工大学 | 一种英文重复文本检测方法、系统、终端及存储介质 |
CN112417845A (zh) * | 2020-11-18 | 2021-02-26 | 武汉大学 | 一种文本评价方法、装置、电子设备及存储介质 |
CN112464654A (zh) * | 2020-11-27 | 2021-03-09 | 科技日报社 | 关键词生成方法、装置、电子设备和计算机可读介质 |
CN113283229A (zh) * | 2021-06-24 | 2021-08-20 | 中国平安人寿保险股份有限公司 | 文本相似度计算方法、装置、电子设备及存储介质 |
CN114970551A (zh) * | 2022-07-27 | 2022-08-30 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本处理方法、装置和电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040162806A1 (en) * | 2002-09-13 | 2004-08-19 | Fuji Xerox Co., Ltd. | Text sentence comparing apparatus |
CN106610951A (zh) * | 2016-09-29 | 2017-05-03 | 四川用联信息技术有限公司 | 改进的基于语义分析的文本相似度求解算法 |
CN109858028A (zh) * | 2019-01-30 | 2019-06-07 | 神思电子技术股份有限公司 | 一种基于概率模型的短文本相似度计算方法 |
CN110008465A (zh) * | 2019-01-25 | 2019-07-12 | 网经科技(苏州)有限公司 | 句子语义距离的度量方法 |
-
2019
- 2019-10-09 CN CN201910954112.3A patent/CN110705248A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040162806A1 (en) * | 2002-09-13 | 2004-08-19 | Fuji Xerox Co., Ltd. | Text sentence comparing apparatus |
CN106610951A (zh) * | 2016-09-29 | 2017-05-03 | 四川用联信息技术有限公司 | 改进的基于语义分析的文本相似度求解算法 |
CN110008465A (zh) * | 2019-01-25 | 2019-07-12 | 网经科技(苏州)有限公司 | 句子语义距离的度量方法 |
CN109858028A (zh) * | 2019-01-30 | 2019-06-07 | 神思电子技术股份有限公司 | 一种基于概率模型的短文本相似度计算方法 |
Non-Patent Citations (2)
Title |
---|
宋章浩: "中文文本分类中TF-IDF方法的改进与应用", 《科技展望》 * |
张玉芳等: "新的文本分类特征选择方法研究", 《计算机工程与应用》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368037A (zh) * | 2020-03-06 | 2020-07-03 | 平安科技(深圳)有限公司 | 基于Bert模型的文本相似度计算方法和装置 |
CN111476026A (zh) * | 2020-03-24 | 2020-07-31 | 珠海格力电器股份有限公司 | 语句向量的确定方法、装置、电子设备及存储介质 |
CN111859901A (zh) * | 2020-07-15 | 2020-10-30 | 大连理工大学 | 一种英文重复文本检测方法、系统、终端及存储介质 |
CN112417845A (zh) * | 2020-11-18 | 2021-02-26 | 武汉大学 | 一种文本评价方法、装置、电子设备及存储介质 |
CN112464654A (zh) * | 2020-11-27 | 2021-03-09 | 科技日报社 | 关键词生成方法、装置、电子设备和计算机可读介质 |
CN113283229A (zh) * | 2021-06-24 | 2021-08-20 | 中国平安人寿保险股份有限公司 | 文本相似度计算方法、装置、电子设备及存储介质 |
CN113283229B (zh) * | 2021-06-24 | 2024-04-02 | 中国平安人寿保险股份有限公司 | 文本相似度计算方法、装置、电子设备及存储介质 |
CN114970551A (zh) * | 2022-07-27 | 2022-08-30 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本处理方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110705248A (zh) | 一种文本相似度计算方法、终端设备及存储介质 | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
JP7100747B2 (ja) | 学習データ生成方法および装置 | |
CN109117474B (zh) | 语句相似度的计算方法、装置及存储介质 | |
CN111814770A (zh) | 一种新闻视频的内容关键词提取方法、终端设备及介质 | |
CN113407679B (zh) | 文本主题挖掘方法、装置、电子设备及存储介质 | |
CN110321562B (zh) | 一种基于bert的短文本匹配方法及装置 | |
US20220261545A1 (en) | Systems and methods for producing a semantic representation of a document | |
CN109063184B (zh) | 多语言新闻文本聚类方法、存储介质及终端设备 | |
CN111767393A (zh) | 一种文本核心内容提取方法及装置 | |
TW202016765A (zh) | 文本還原方法、裝置及電子設備 | |
WO2019227629A1 (zh) | 文本信息的生成方法、装置、计算机设备及存储介质 | |
CN114186061A (zh) | 语句意图预测方法、装置、存储介质及计算机设备 | |
CN112328735A (zh) | 热点话题确定方法、装置及终端设备 | |
CN110046344B (zh) | 添加分隔符的方法及终端设备 | |
CN111401039A (zh) | 基于二元互信息的词语检索方法、装置、设备及存储介质 | |
CN114330251A (zh) | 文本生成方法、模型的训练方法、设备及存储介质 | |
CN111402864A (zh) | 语音处理方法及电子设备 | |
CN109885831B (zh) | 关键术语抽取方法、装置、设备及计算机可读存储介质 | |
CN113743090A (zh) | 一种关键词提取方法及装置 | |
CN110852057A (zh) | 一种计算文本相似度的方法和装置 | |
CN110276070B (zh) | 一种语料处理方法、装置及存储介质 | |
CN111626040A (zh) | 一种确定句子相似度的方法、相关设备及可读存储介质 | |
CN110427626B (zh) | 关键词的提取方法及装置 | |
CN110287284B (zh) | 语义匹配方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200117 |
|
RJ01 | Rejection of invention patent application after publication |