CN111159339A

CN111159339A - 一种文本匹配处理方法和装置

Info

Publication number: CN111159339A
Application number: CN201911346513.7A
Authority: CN
Inventors: 孙宇浩; 孙龙超; 张斌; 唐劭
Original assignee: Beijing Asiainfo Data Co ltd
Current assignee: Beijing Asiainfo Data Co ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-05-15

Abstract

本公开提供了一种文本匹配处理方法和装置，该文本匹配处理方法包括：对待匹配文本进行分词；对分词结果进行格式转换，将中文格式转换为拼音格式；将转换格式后的分词结果进行向量化计算；根据计算得到的向量，计算待匹配文本的相似度。本公开解决了在医学领域中现有的常规分词、做词距的方法，准确率低、通用性差的问题。并且本公开的匹配方法准确程度大幅度提高，效率也大幅度提升。

Description

一种文本匹配处理方法和装置

技术领域

本公开涉及数据处理技术领域，特别涉及一种文本匹配处理方法和装置。

背景技术

目前，自然语言处理是人工智能领域内的一个困难重重同时引人注目的研究课题，理想结果就是能够使计算机像人那样理解、分析自然语言，从而解决文本分类、句法分析、语义理解、情感识别、语义推理等实际问题。

在做词表字段匹配时，用常规的分词方法、做词距的方法，对生活领域的字段匹配效果较好。而在医学领域，对于海量的医学专有名词词表，常规的方法词表映射的准确率并不是很高，对于严谨的医学领域，常常出现匹配错误的情况是亟需解决的。

发明内容

为了解决上述技术问题中的至少一个，本公开提供了一种文本匹配处理方法和装置，解决了在医学领域，匹配结果差，效率低的问题。

第一方面，本公开提供了一种文本匹配处理方法，该文本匹配处理方法包括：

对待匹配文本进行分词；

对分词结果进行格式转换；

将转换格式后的分词结果进行向量化计算；

根据计算得到的向量，计算待匹配文本的相似度。

可选地，所述对分词结果进行格式转换，包括：

对于分词后的结果，将中文格式转换为拼音格式。

可选地，所述根据计算得到的向量，计算待匹配文本的相似度，包括：

根据计算得到的词向量计算欧式距离得到待匹配文本的相似度。

可选地，该文本匹配处理方法还包括：

相似度大于预设阈值的待匹配文本进行匹配。

第二方面，本公开提供了一种文本匹配处理装置，文本匹配处理装置包括：文本分词模块、格式转换模块、向量生成模块和相似计算模块，其中，

所述文本分词模块，用于对待匹配文本进行分词；

所述格式转换模块，用于对分词结果进行格式转换；

所述向量生成模块，用于将转换格式后的分词结果进行向量化计算；

所述相似计算模块，用于根据计算得到的向量，计算待匹配文本的相似度。

可选地，所述格式转换模块具体用于对于分词后的结果，将中文格式转换为拼音格式。

可选地，所述相似计算模块具体用于由获得的向量计算欧式距离得到待匹配文本的相似度。

可选地，该文本匹配处理装置还包括：文本匹配模块用于相似度大于预设阈值的待匹配文本进行匹配。

第三方面，本公开提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中任一项所述文本匹配处理方法。

第四方面，本公开提供了一种计算设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面中任一项所述文本匹配处理方法。

与现有技术相比，本公开至少具有以下有益效果：

本公开解决了在医学领域中现有的常规分词、做词距的方法，准确率低、通用性差的问题。本公开的匹配方法准确程度大幅度提高，效率也大幅度提升。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开一个实施例提供的一种文本匹配处理方法的流程示意图；

图2是本公开一个实施例提供的另一种文本匹配处理方法的流程示意图；

图3是本公开一个实施例提供的一种文本匹配处理装置的结构框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例，基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

如图1所示，本公开实施例提供了一种文本匹配处理方法，该方法可以包括以下步骤：

对待匹配文本进行分词；

对分词结果进行格式转换；

将转换格式后的分词结果进行向量化计算；

根据计算得到的向量，计算待匹配文本的相似度。

在该实施例中，中文分词是中文文本处理的一个基础步骤，也是中文人机自然语言(Natural Language Processing，NLP)交互的基础模块。不同于英文的是，中文句子中没有词的界限，因此在进行中文自然语言处理时，通常需要先进行分词，分词效果将直接影响词性、句法树等模块的效果。本公开可以采用基于词典分词算法和基于统计的机器学习算法进行分词。进行分词处理得到分词结果确定所述预设语句的文本字符串，例如，所述“心脏震颤”分词后获得的文本字符串为“心脏/震颤”。对于不同的文本分词处理可能会分出单独的一个字，也可能会分出一个词。

如图2所示，在本公开一个实施例中，所述对分词结果进行格式转换，包括：

对于分词后的结果，将中文格式转换为拼音格式。

在该实施例中，根据各预设语句的文本字符串，确定与所述文本字符串相对应的文本拼音，如分词确定的文本字符串为“肌酐”，根据所述文本字符串确定其文本拼音为“jigan”；分词确定的文本字符串为“心脏/震颤”，根据所述文本字符串确定其文本拼音为“xinzang/zhen chan”。其中，当所述文本字符串包括中文字符时，映射与所述中文字符相对应的文本拼音，当所述文本字符串包括英文字符时，所述英文字符的文本拼音为所述英文字符本身。

在本公开一个实施例中，所述根据计算得到的向量，计算待匹配文本的相似度，包括：

在本公开一个实施例中，该文本匹配处理方法还包括：

相似度大于预设阈值的待匹配文本进行匹配。

下面以医学领域的词表映射为例，对本公开提供的文本匹配处理方法进行详细说明。

S1：对两类医学词表分别做分词。

换句话说也就是对于需要匹配的两个词表分别做分词。

S2：分词完成后，将分词结果里面的中文格式转换为汉语拼音的格式。

例如：中文分词结果是一个列表形式，里面嵌套了词表里面的词进行分词后的结果。需要进行转换，把列表里面的每个结果，都改成汉语拼音的形式，结果即为列表形式，里面嵌套了汉语拼音形式的分词结果。

S3：转换成拼音形式的分词结果进行词向量计算。

转换成一维矩阵，矩阵里面都是数字组成，此过程即转换成了计算机能读懂的语言。

S4：对于生成的词向量，计算欧式距离得出相似度。

本公开通过使用中文汉字的拼音方式，去实现中文匹配的匹配，大大提高了准确率，尤其是在医学领域，在大部分常规模型下，使用汉语拼音的方式显得更加高效，能大大提升匹配结果的准确率。在实际应用中，也显得极为有效。

如图3所示，本公开还提供了一种文本匹配处理装置，文本匹配处理装置包括：文本分词模块、格式转换模块、向量生成模块和相似计算模块，其中，

所述文本分词模块，用于对待匹配文本进行分词；

所述格式转换模块，用于对分词结果进行格式转换；

在本公开一个实施例中，所述格式转换模块具体用于对于分词后的结果，将中文格式转换为拼音格式。

在本公开一个实施例中，所述相似计算模块具体用于由获得的向量计算欧式距离得到待匹配文本的相似度。

在本公开一个实施例中，该文本匹配处理装置还包括：文本匹配模块用于相似度大于预设阈值的待匹配文本进行匹配。

上述装置内的各模块之间的信息交互、执行过程等内容，由于与本公开方法实施例基于同一构思，具体内容可参见本公开方法实施例中的叙述，此处不再赘述。

本公开还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中任一项所述文本匹配处理方法。

计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本公开还提供了一种计算设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面中任一项所述文本匹配处理方法。

本公开实施例的计算设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本公开的较佳实施例，仅用于说明本公开的技术方案，并非用于限定本公开的保护范围。凡在本公开的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本公开的保护范围内。

Claims

1.一种文本匹配处理方法，其特征在于，该文本匹配处理方法包括：

对待匹配文本进行分词；

对分词结果进行格式转换；

将转换格式后的分词结果进行向量化计算；

根据计算得到的向量，计算待匹配文本的相似度。

2.根据权利要求1所述文本匹配处理方法，其特征在于，所述对分词结果进行格式转换，包括：

对于分词后的结果，将中文格式转换为拼音格式。

3.根据权利要求1所述文本匹配处理方法，其特征在于，所述根据计算得到的向量，计算待匹配文本的相似度，包括：

4.根据权利要求1所述文本匹配处理方法，其特征在于，该文本匹配处理方法还包括：

相似度大于预设阈值的待匹配文本进行匹配。

5.一种文本匹配处理装置，其特征在于，该文本匹配处理装置包括：文本分词模块、格式转换模块、向量生成模块和相似计算模块，其中，

所述文本分词模块，用于对待匹配文本进行分词；

所述格式转换模块，用于对分词结果进行格式转换；

6.根据权利要求5所述文本匹配处理装置，其特征在于，所述格式转换模块具体用于对于分词后的结果，将中文格式转换为拼音格式。

7.根据权利要求5所述文本匹配处理装置，其特征在于，所述相似计算模块具体用于由获得的向量计算欧式距离得到待匹配文本的相似度。

8.根据权利要求5所述文本匹配处理装置，其特征在于，该文本匹配处理装置还包括：文本匹配模块用于相似度大于预设阈值的待匹配文本进行匹配。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述文本匹配处理方法。

10.一种计算设备，包括存储器和处理器，其特征在于，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述文本匹配处理方法。