CN109800346A - 文本匹配方法、装置、计算机设备和存储介质 - Google Patents

文本匹配方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109800346A
CN109800346A CN201910028117.3A CN201910028117A CN109800346A CN 109800346 A CN109800346 A CN 109800346A CN 201910028117 A CN201910028117 A CN 201910028117A CN 109800346 A CN109800346 A CN 109800346A
Authority
CN
China
Prior art keywords
word
text
matched
matching library
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910028117.3A
Other languages
English (en)
Other versions
CN109800346B (zh
Inventor
李成
曾俊杰
张良杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kingdee Software China Co Ltd
Original Assignee
Kingdee Software China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kingdee Software China Co Ltd filed Critical Kingdee Software China Co Ltd
Priority to CN201910028117.3A priority Critical patent/CN109800346B/zh
Publication of CN109800346A publication Critical patent/CN109800346A/zh
Application granted granted Critical
Publication of CN109800346B publication Critical patent/CN109800346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种文本匹配方法、装置、计算机设备和存储介质。该方法包括:获取待匹配文本;获取匹配库中词的词权重,根据匹配库中词的词权重确定待匹配文本中词的词权重;其中,匹配库为根据输入的查询范围所确定的文本形成的,匹配库中的词为对匹配库中文本进行分词得到的;根据待匹配文本中词的词权重和匹配库中词的词权重确定待匹配文本与匹配库中的每个文本的相似度;根据相似度得到匹配结果,并输出匹配结果。采用本方法能够根据词权重确定待匹配文本中的关键信息,从而根据词权重匹配到更接近的文本,匹配的方式更准确,更符合用户的匹配需求。

Description

文本匹配方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本匹配方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,网络上逐渐出现大量资源,当用户需要某一类资源时,需要从这些资源中进行查找。为了快速查找用户可能需要的文本,出现了资源匹配算法。例如,基于编辑距离的模糊匹配方法,该方法通过将文本变成待匹配文本所需要编辑的距离来反映两段文本的相似度,越相似的文本所需要的编辑距离越短,从而匹配到最相似的文本。
然而,这种方法只考虑了字、词的相似度,而并未考虑到字、词本身所代表的重要性,可能无法匹配到最接近的文本。
发明内容
基于此,有必要针对上述技术问题,提供一种能够根据词的重要性进行匹配的文本匹配方法、装置、计算机设备和存储介质。
一种文本匹配方法,所述方法包括:
获取待匹配文本;
获取匹配库中词的词权重,根据所述匹配库中词的词权重确定所述待匹配文本中词的词权重;其中,所述匹配库为根据输入的查询范围所确定的文本形成的,所述匹配库中的词为对所述匹配库中文本进行分词得到的;
根据所述待匹配文本中词的词权重和所述匹配库中词的词权重确定所述待匹配文本与所述匹配库中的每个文本的相似度;
根据所述相似度得到匹配结果,并输出所述匹配结果。
在一个实施例中,所述匹配库中词的词权重的确定方式,包括:
确定匹配库中文本的数量和匹配库中词的数量;
确定所述匹配库中每个词所属文本的数量和每个词在所述匹配库的词中出现的次数;
根据所述匹配库中文本的数量、所述匹配库中词的数量、所述匹配库中每个词所属文本的数量和每个词在所述匹配库的词中出现的次数,确定每个词的词权重。
在其中一个实施例中,所述获取匹配库中词的词权重,根据所述匹配库中词的词权重确定所述待匹配文本中词的词权重,包括:
将所述待匹配文本进行分词;
将所述待匹配文本的词与匹配库的词进行对比;
当在所述匹配库中存在与所述待匹配文本的词一致的词时,获取所述匹配库中一致的词的词权重;
根据所述匹配库中一致的词的词权重,得到所述待匹配文本的词的词权重;
当在所述匹配库中不存在与所述待匹配文本的词一致的词时,所述待匹配文本的词的词权重为零。
在其中一个实施例中,所述匹配库中文本进行分词的方式,包括:
采用全模式分词方式将所述匹配库的每个文本进行分词。
所述将所述待匹配文本进行分词,包括:
采用精准分词方式将所述待匹配文本进行分词。
在另一个实施例中,所述根据所述待匹配文本中词的词权重和所述匹配库中词的词权重确定所述待匹配文本与所述匹配库中的每个文本的相似度,包括:
确定所述待匹配文本的词与所述匹配库中的每个文本的词相同的词的词权重之和;
根据所述待匹配文本的词与所述匹配库中的每个文本的词相同的词的词权重之和、所述待匹配文本中所有词的词权重之和与匹配库中的每个文本的词的词权重之和,确定所述待匹配文本与所述匹配库中的每个文本的相似度。
在一个实施例中,所述根据所述相似度得到匹配结果,并输出所述匹配结果,包括:
根据所述相似度得到所述匹配库中相似度最高的文本,输出所述匹配库中相似度最高的文本。
在一个实施例中,所述获取待匹配文本,包括:
获取输入的初始文本,采用命名实体识别模型对所述初始文本进行信息提取;
将提取的信息整理为待匹配文本。
一种文本匹配装置,所述装置包括:
获取模块,用于获取待匹配文本;
词权重确定模块,用于获取匹配库中词的词权重,根据所述匹配库中词的词权重确定所述待匹配文本中词的词权重;其中,所述匹配库为根据输入的查询范围所确定的文本形成的,所述匹配库中的词为对所述匹配库中文本进行分词得到的;
相似度计算模块,用于根据所述待匹配文本中词的词权重和所述匹配库中词的词权重确定所述待匹配文本与所述匹配库中的每个文本的相似度;
输出模块,用于根据所述相似度得到匹配结果,并输出所述匹配结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
上述文本匹配方法、装置、计算机设备和存储介质,通过获取待匹配文本并进行分词,然后将待匹配文本的词和匹配库中的词进行匹配,根据匹配库中词的词权重确定待匹配文本的词的词权重,使得能够根据词权重体现待匹配文本的词的重要性,然后根据待匹配文本的词权重和匹配库中的每个文本的词权重,确定待匹配文本与匹配库中的每个文本的相似度,从而确定最接近的文本。采用本方法能够根据词权重确定待匹配文本中的关键信息,从而根据词权重匹配到更接近的文本,匹配的方式更准确,更符合用户的匹配需求。
附图说明
图1为一个实施例中文本匹配方法的应用环境图;
图2为一个实施例中文本匹配方法的流程示意图;
图3为一个实施例中确定词权重的步骤的流程示意图;
图4为另一个实施例中确定词权重的步骤的流程示意图;
图5为另一个实施例中获取待匹配文本的步骤的流程示意图;
图6为一个实施例中文本匹配装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如背景技术中所述,基于编辑距离的模糊匹配方法是通过将文本变成待匹配文本所需要编辑的距离来反映两段文本的相似度,从而匹配到最相似的文本。编辑距离是将文本变成另外一段文本所需要操作的步骤。一般地,将增加、删除、替换三种操作的编辑距离都视为1。例如,将文本“我要去北京了”改为“我想去北京的天安门”,需要增加“的”、“天”、“安”,“门”;删除“了”,把“要”替换为“想”,共需要6步,即编辑距离为6。编辑距离在一定程度上反映了两段文本的相似度,越相似的文本所需要的编辑距离越短。
但是该方法只考虑了文本的字之间的编辑距离而没有分别考虑字、词所代表的重要性。例如,待匹配文本为“金星软件”,现在匹配库中存在两个文本,第一个为“金矿软件”,第二个为“金星软件有限公司”,根据基于编辑距离的模糊匹配方法,得到待匹配文本与第一个文本的编辑距离为1,与第二个文本的编辑距离为4,则第一个文本为待匹配文本的最相似文本。但就实际而言,第二个文本才是用户所需要匹配到的文本。而本申请则能够根据词的重要性实现文本匹配,匹配的方式更准确。
本申请实施例提供的文本匹配方法,可以应用于如图1所示的应用环境中。其中,终端102接收用户输入的待匹配文本进行相应地处理。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
在一个实施例中,如图2所示,提供了一种文本匹配方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤202,获取待匹配文本。
步骤204,获取匹配库中词的词权重,根据匹配库中词的词权重确定待匹配文本中词的词权重;其中,匹配库为根据输入的查询范围所确定的文本形成的,匹配库中的词为对匹配库中文本进行分词得到的。
其中,待匹配文本是需要进行匹配的文本,匹配库是用于存放待匹配文本可能需要匹配的所有文本。匹配库为根据输入的查询范围所确定的文本形成的,例如,用户输入的查询范围为“公司名称”,则匹配库中的文本就是从数据库中获取的所有公司的名称。匹配库中的词是指匹配中的文本进行分词后得到的所有词。
具体地,用户输入要匹配的范围,终端根据该输入的范围,从多个数据库中获取该范围内的所有文本,形成一个匹配库。终端获取待匹配文本,将待匹配文本进行分词。然后获取匹配库中所有词的词权重,将待匹配文本的词和匹配库中的词进行匹配,若匹配库中的词存在跟待匹配文本的词相同的,则该匹配库中的词的词权重就是待匹配文本的词的词权重。
步骤206,根据待匹配文本中词的词权重和匹配库中词的词权重确定待匹配文本与匹配库中的每个文本的相似度。
具体地,终端先进行待匹配文本的词的匹配,得到待匹配文本中每个词的词权重。然后从匹配库中提取出一个文本,根据待匹配文本中的词的词权重和匹配库提取出的一个文本的词权重,计算待匹配文本和提取出的一个文本的相似度。接着,继续提取另一个文本,利用相同的方式计算待匹配文本和从匹配库中提取出来的文本的相似度。当匹配库中不存在没有计算与待匹配文本的相似度的文本时,确定完成相似度计算的操作。
步骤208,根据相似度得到匹配结果,并输出匹配结果。
具体地,终端根据计算出的相似度的高低,形成匹配结果,可以按照待匹配文本和匹配库中的文本的相似度的高低来排序,相似度越高在越前面,以此形成匹配结果,并将该匹配结果输出以展示给用户。
上述文本匹配方法中,通过获取待匹配文本并进行分词,然后将待匹配文本的词和匹配库中的词进行匹配,根据匹配库中词的词权重确定待匹配文本的词的词权重,使得能够根据词权重体现待匹配文本的词的重要性,然后根据待匹配文本的词权重和匹配库中的每个文本的词权重,确定待匹配文本与匹配库中的每个文本的相似度,从而确定最接近的文本。采用本方法能够根据词权重确定待匹配文本中的关键词,从而根据词权重匹配到更接近的文本,匹配的方式更准确,更符合用户的匹配需求。
在一个实施例中,如图3所示,匹配库中词的词权重的确定方式,包括:
步骤302,确定匹配库中文本的数量和匹配库中词的数量。
具体地,终端根据用户输入的查绚范围确定匹配库中的文本,接着,终端可确定匹配库中文本的总数量。然后终端将匹配库中的每个文本进行分词,得到匹配库中的多个词,并确定匹配库中的词的总数量。
步骤304,确定匹配库中每个词所属文本的数量和每个词在匹配库的词中出现的次数。
具体地,终端从匹配库中提取出任意一个词,然后确定匹配库中有多少个文本中存在该词,以确定该词所属的文本数量。并且,当终端检测到匹配库中存在重复的词时,只需要进行一次提取用于确定该词所属的文本数量即可。接着,终端确定每个词在匹配库中重复出现的次数,以确定每个词在匹配库的词中出现的次数。
步骤306,根据匹配库中文本的数量、匹配库中词的数量、匹配库中每个词所属文本的数量和每个词在匹配库的词中出现的次数,确定每个词的词权重。
具体地,终端根据计算出的一个词在匹配库中所属的文本的数量、该词在在匹配库的词中出现的次数、匹配库中文本的总数量和匹配库中词的总数量,计算该词在匹配库中的词权重。并按照相同的方式计算其它词在匹配库中的词权重,直到匹配库中不存在未计算词权重的词时,确定完成匹配库中所有词的词权重计算操作。并且,终端在计算完一个词的词权重后,可检测匹配库中与该词相同的词,并将该词的词权重赋予匹配库中相同的词。
上述文本匹配方法,通过确定匹配库中文本的总数量和匹配库中词的总数量,并确定匹配库中一个词所属文本的数量和该词在匹配库的词中出现的次数,然后计算出该词在匹配库的词中的词权重,从而能够计算出匹配库中所有词的词权重。通过计算词权重,可以确定匹配库中的词的关键程度,词权重越大的文本越可能是用户需要匹配文本。
如表1所示,用户输入的搜索范围为“公司名称”,则终端接收到该操作指令后,从数据库中获取存储的所有公司的名称,形成一个匹配库,由表1可知匹配库中有7个文本。
表1
接着,终端将匹配库中的文本都进行分词,得到分词结果中显示的词。接着,终端可按照公式(1)计算匹配库中每个词的词权重。
其中,tfidfi为第i个词的词权重,i是指匹配库中的词的序号,ni表示第i个词在匹配库中出现的数量,为匹配库中所有词的数量。|D|为匹配库中的文本数量。t是指匹配库中的词,j是指匹配库中的文本,j:t是指存在词t的文本j,j:t∈dj表示匹配库中存在词t的文本j的集合dj,|j:t∈dj|表示匹配库中存在词t的文本j的数量。接着,计算“金星”的词权重,“金星”一词在整个库中出现4次,所以ni是4,是匹配库中所有词的总数量一共是19,|D|是匹配库中的文本总数量是7,|j:t∈dj|表示匹配库中有几个文本出现了“金星”一词,即为4。所以,“金星”的词权重为(4/19)*(ln(7/4))。
在本实施例中,终端确定确定匹配库中文本的数量和匹配库中词的数量后,终端可先从匹配库中提取出一个词,确定该词所属文本的数量,接着,再确定该词在匹配库中出现的次数。然后计算该词的词权重。计算完该词的词权重后,将该词权重赋给匹配库中与该词相同的词。接着,终端再从匹配库中获取另一个未计算词权重的词,同样先确定该词所属文本的数量和该词在匹配库中出现的次数,再计算词权重。通过直接确定匹配库中的一个词所属文本的数量和在匹配库中出现的次数,先完成该词的词权重计算,再去确定另外的词所属文本的数量和该词在匹配库中出现的次数,减少出错的几率,提高词权重的计算速度。
在一个实施例中,如图4所示,获取匹配库中词的词权重,根据匹配库中词的词权重确定待匹配文本中词的词权重,包括:
步骤402,将待匹配文本进行分词。
步骤404,将待匹配文本的词与匹配库的词进行对比。
具体地,终端利用分词方式将获取的待匹配文本进行分词,接着,从待匹配文本的词中提取出任意一个词,将该词与匹配库中的词进行对比。
步骤406,当在匹配库中存在与待匹配文本的词一致的词时,获取匹配库中一致的词的词权重。
步骤408,根据匹配库中一致的词的词权重,得到待匹配文本的词的词权重。
具体地,当终端检测到匹配库中存在与从待匹配文本中取出的词相同的词时,获取匹配库中该相同的词的词权重,并将该词的词权重赋予从待匹配文本中取出的词,从而得到待匹配文本中提取出的词的词权重。
步骤410,当在匹配库中不存在与待匹配文本的词一致的词时,待匹配文本的词的词权重为零。
具体地,当在匹配库中没有匹配到与待匹配文本中提取的词一致的词时,判定匹配库中不存在该词,则该词的词权重为0。接着,按照相同的方式将待匹配文本中的每个词都与匹配库中的词进行匹配,从而得到待匹配文本中的每个词的词权重。
上述文本匹配方法中,通过将待匹配文本进行分词,得到组成待匹配文本的词组,接着,将待匹配文本中的每个词都与匹配库中的词进行匹配,以确定待匹配文本中的每个词的词权重。通过该方法不需要计算待匹配文本中词的词权重,即可快速、简单地确定待匹配文本中每个词的词权重。
在其中一个实施例中,匹配库中文本进行分词的方式,包括:采用全模式分词方式将匹配库的每个文本进行分词。将待匹配文本进行分词,包括:采用精准分词方式将待匹配文本进行分词。
其中,全模式分词方式是将语句中所有可以组合的词分出来。精准分词方式是根据句法、语义将语句精准地进行划分,确保划分的词的准确。
具体地,终端利用全模式分词方式将匹配库中的文本进行分词,将匹配库中的文本中所有可以组合的词分出来,以确保能够得到尽可能多的词。然后终端利用精准分词方式对待匹配文本进行划分,根据对待匹配文本的句法和语义的分析,去除存在歧义的词的划分,尽可能地保证划分后的词的准确性和词的完整性,从而提高待匹配文本匹配到最接近的文本的几率。
例如,当匹配库中有一文本为“金牌星软件公司”,利用全模式分词方式划分的词为“金牌”“星”“金牌星”“软件”“公司”,能够提供更多匹配的机会。当该文本为待匹配文本时,利用精准分词方式划分的词为“金牌星”“软件”“公司”,将待匹配文本精准划分,能够提高匹配到最接近文本的几率。
在另一个实施例中,根据待匹配文本中词的词权重和匹配库中词的词权重确定待匹配文本与匹配库中的每个文本的相似度,包括:确定待匹配文本的词与匹配库中的每个文本的词相同的词的词权重之和;根据待匹配文本的词与匹配库中的每个文本的词相同的词的词权重之和、待匹配文本中所有词的词权重之和与匹配库中的每个文本的词的词权重之和,确定待匹配文本与匹配库中的每个文本的相似度。
具体地,终端从匹配库中提取出一个文本,再确定待匹配文本的词跟提取出的文本的词是否存在相同的词,若存在相同的词,则将相同的词的词权重相加,得到待匹配文本的词与提取出的文本的词中相同词的词权重之和。接着,终端计算待匹配文本中所有词的词权重之和,并计算提取出的一个文本的词的词权重之和,最后根据这三个权重之和,计算出待匹配文本和提取出的该文本的相似度。接着,采用同样的方式计算待匹配文本和匹配库中的每个文本的相似度,当匹配库中不存在未完成相似度计算的文本时,结束待匹配文本和匹配库中的文本的相似度计算操作。通过确定待匹配文本的词与匹配库中提取的文本的词相同的词,确定相同的词的词权重之和,再根据三个不同的权重之和,计算待匹配文本和匹配库中的每个文本的相似度,将词权重作为计算文本相似度的依据,而不需要考虑待匹配文本的词的顺序,能够支持表达方式的多样化,从而能够匹配到更准确的文本。
例如,终端可根据模糊匹配算法,即按照下列的公式(2)计算待匹配文本和匹配库中的文本的相似度。
其中,wi,j表示待匹配文本i和匹配库中的第j个文本的相似度。i是指待匹配文本,Ni表示待匹配文本i分词后的词的数量,j表示待匹配库中的第j个文本,Nj表示匹配库中的第j个文本分词后的词数量。Nc表示待匹配文本i和匹配库中的第j个文本之间相同的词的数量。表示待匹配文本和匹配库中提取出的文本中相同词的词权重之和,比如需要匹配的文本为“金星有限公司”,从表1所示的匹配库中取出一条文本,即“金星软件公司”,则就是“金星”与“公司”的词权重之和。表示待匹配文本中所有词的词权重之和,就是“金星”,“软件”,“公司”三个词的词权重之和。表示匹配库中提取出来的文本的词的词权重之和。
在一个实施例中,根据相似度得到匹配结果,并输出匹配结果,包括:根据相似度得到匹配库中相似度最高的文本,输出匹配库中相似度最高的文本。
具体地,终端根据计算出的待匹配文本和匹配库中的文本相似度的高低进行排序,以确定匹配库中相似度最高的文本,并将该文本输出给用户,从而返回最能满足用户需求的结果。
在本实施例中,终端还可以根据相似度进行排序,按照相似度的排序输出匹配库中的文本。终端根据计算出的待匹配文本和匹配库中的文本相似度的高低进行排序,按照由高到低的顺序输出待匹配库中的文本,从而能够提供给用户多种匹配文本,更能满足用户的不同需求。
在一个实施例中,如图5所示,获取待匹配文本,包括:
步骤502,获取输入的初始文本,采用命名实体识别模型对初始文本进行信息提取。
步骤504,将提取的信息整理为待匹配文本。
其中,初始文本为用户输入的文本,可以是用户通过语音输入的语句,也可以是键盘、终端按键等输入的文本。命名实体识别(Named Entity Recognition,简称NER),又称作"专名识别",是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名和专有名词等。
具体地,终端获取用户输入的初始文本,将该初始文本发送给命名实体模型,该命名实体模型接收该初始文本,然后对该初始文本进行解析以提取关键信息,先确定该初始文本的边界,然后再确定初始文本的实体类别,即确定初始文本中的人名、地名、机构名、专有名词和其它等。接着,终端将命名实体模型提取的关键信息整理为待匹配文本,使得能够更准确地进行文本匹配。接收用户通过多种方式输入的初始文本,能够提供给用户多种输入文本的方式,可以满足不同的用户需求。并且,利用命名实体模型对初始文本进行关键信息提取以得到待匹配文本,能够有效地去除无用的信息,保留关键的信息,从而根据关键信息能够更准确地匹配到需要的文本。
在一个实施例中,该文本匹配方法,包括:
终端根据用户输入的查询范围确定匹配库中的文本。
接着,终端采用全模式分词方式将匹配库的每个文本进行分词。
可选地,终端确定匹配库中文本的数量和匹配库中词的数量。
接着,终端确定匹配库中每个词所属文本的数量和每个词在匹配库的词中出现的次数。
进一步地,终端根据匹配库中文本的数量、匹配库中词的数量、匹配库中每个词所属文本的数量和每个词在匹配库的词中出现的次数,确定匹配库中每个词的词权重。
可选地,终端获取输入的初始文本,采用命名实体识别模型对初始文本进行信息提取,并将提取的信息整理为待匹配文本。
接着,终端获取待匹配文本,采用精准分词方式将待匹配文本进行分词。
可选地,终端将待匹配文本的词与匹配库的词进行对比。
接着,当在匹配库中存在与待匹配文本的词一致的词时,终端获取匹配库中一致的词的词权重。
进一步地,终端根据匹配库中一致的词的词权重,得到待匹配文本的词的词权重。
进一步地,当在匹配库中不存在与待匹配文本的词一致的词时,终端判定待匹配文本的词的词权重为零。
接着,终端确定待匹配文本的词与匹配库中的每个文本的词相同的词的词权重之和。
可选地,终端根据待匹配文本的词与匹配库中的每个文本的词相同的词的词权重之和、待匹配文本中所有词的词权重之和与匹配库中的每个文本的词的词权重之和,确定待匹配文本与匹配库中的每个文本的相似度。
进一步地,终端根据相似度得到匹配库中相似度最高的文本,输出匹配库中相似度最高的文本。
上述文本匹配方法,通过根据用户输入的查询范围确定匹配库中的文本,并采用全模式分词方式将匹配库的每个文本进行分词,将匹配库中的文本中所有可以组合的词分出来,以确保能够得到尽可能多的词。通过确定匹配库中文本的总数量和匹配库中词的总数量,并确定匹配库中一个词所属文本的数量和该词在匹配库的词中出现的次数,然后计算出该词在匹配库的词中的词权重,从而能够计算出匹配库中所有词的词权重。通过计算词权重,可以确定匹配库中的词的关键程度,词权重越大的文本越可能是用户需要匹配文本。接着,接收用户通过多种方式输入的初始文本,能够提供给用户多种输入文本的方式,可以满足不同的用户需求。并且,利用命名实体模型对初始文本进行关键信息提取以得到待匹配文本,能够有效地去除无用的信息,保留关键的信息,从而根据关键信息能够更准确地匹配到需要的文本。通过将待匹配文本进行分词,得到组成待匹配文本的词组,接着,将待匹配文本中的每个词都与匹配库中的词进行匹配,以确定待匹配文本中的每个词的词权重,从而不需要计算待匹配文本中词的词权重,即可快速、简单地确定待匹配文本中每个词的词权重。通过确定待匹配文本的词与匹配库中提取的文本的词相同的词,确定相同的词的词权重之和,再根据三个不同的权重之和,计算待匹配文本和匹配库中的每个文本的相似度,将词权重作为计算文本相似度的依据,而不需要考虑待匹配文本的词的顺序,能够支持表达方式的多样化,从而能够匹配到更准确的文本。
应该理解的是,虽然图1-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种文本匹配装置,包括:获取模块602、词权重确定模块604、相似度计算模块606和输出模块608,其中:
获取模块602,用于获取待匹配文本。
词权重确定模块604,用于获取匹配库中词的词权重,根据匹配库中词的词权重确定待匹配文本中词的词权重;其中,匹配库为根据输入的查询范围所确定的文本形成的,匹配库中的词为对匹配库中文本进行分词得到的。
相似度计算模块606,用于根据待匹配文本中词的词权重和匹配库中词的词权重确定待匹配文本与匹配库中的每个文本的相似度。
输出模块608,用于根据相似度得到匹配结果,并输出匹配结果。
上述文本匹配装置,通过获取待匹配文本并进行分词,然后将待匹配文本的词和匹配库中的词进行匹配,根据匹配库中词的词权重确定待匹配文本的词的词权重,使得能够根据词权重体现待匹配文本的词的重要性,然后根据待匹配文本的词权重和匹配库中的每个文本的词权重,确定待匹配文本与匹配库中的每个文本的相似度,从而确定最接近的文本。采用本方法可以根据词的词权重确定待匹配文本中最关键的词,从而更多地匹配到与词权重更大的词更接近的文本,匹配的方式更准确,更符合用户的匹配需求。
在一个实施例中,词权重确定模块604还用于:确定匹配库中文本的数量和匹配库中词的数量;确定匹配库中每个词所属文本的数量和每个词在匹配库的词中出现的次数;根据匹配库中文本的数量、匹配库中词的数量、匹配库中每个词所属文本的数量和每个词在匹配库的词中出现的次数,确定每个词的词权重。上述文本匹配装置,通过确定匹配库中文本的总数量和匹配库中词的总数量,并确定匹配库中一个词所属文本的数量和该词在匹配库的词中出现的次数,然后计算出该词在匹配库的词中的词权重,从而能够计算出匹配库中所有词的词权重。通过计算词权重,可以确定匹配库中的词的关键程度,词权重越大的文本越可能是用户需要匹配文本。
在一个实施例中,词权重确定模块604还用于:将待匹配文本进行分词;将待匹配文本的词与匹配库的词进行对比;当在匹配库中存在与待匹配文本的词一致的词时,获取匹配库中一致的词的词权重;根据匹配库中一致的词的词权重,得到待匹配文本的词的词权重;当在匹配库中不存在与待匹配文本的词一致的词时,待匹配文本的词的词权重为零。通过将待匹配文本进行分词,得到组成待匹配文本的词组,接着,将待匹配文本中的每个词都与匹配库中的词进行匹配,以确定待匹配文本中的每个词的词权重。通过该装置不需要计算待匹配文本中词的词权重,即可快速、简单地确定待匹配文本中每个词的词权重。
在一个实施例中,词权重确定模块604还用于:采用全模式分词方式将匹配库的每个文本进行分词。采用精准分词方式将待匹配文本进行分词。利用全模式分词方式将匹配库中的文本进行分词,将匹配库中的文本中所有可以组合的词分出来,以确保能够得到尽可能多的词。利用精准分词方式对待匹配文本进行划分,根据对待匹配文本的句法和语义的分析,去除存在歧义的词的划分,尽可能地保证划分后的词的准确性和词的完整性,从而提高待匹配文本匹配到最接近的文本的几率。
在一个实施例中,相似度计算模块606还用于:确定待匹配文本的词与匹配库中的每个文本的词相同的词的词权重之和;根据待匹配文本的词与匹配库中的每个文本的词相同的词的词权重之和、待匹配文本中所有词的词权重之和与匹配库中的每个文本的词的词权重之和,确定待匹配文本与匹配库中的每个文本的相似度。通过确定待匹配文本的词与匹配库中提取的文本的词相同的词,确定相同的词的词权重之和,再根据三个不同的权重之和,计算待匹配文本和匹配库中的每个文本的相似度,将词权重作为计算文本相似度的依据,而不需要考虑待匹配文本的词的顺序,能够支持表达方式的多样化,从而能够匹配到更准确的文本。
在一个实施例中,输出模块608还用于:根据相似度得到匹配库中相似度最高的文本,输出匹配库中相似度最高的文本。根据计算出的待匹配文本和匹配库中的文本相似度的高低进行排序,以确定匹配库中相似度最高的文本,并将该文本输出给用户,从而返回最能满足用户需求的结果。
在其中一个实施例中,获取模块602还用于:获取输入的初始文本,采用命名实体识别模型对初始文本进行信息提取;将提取的信息整理为待匹配文本。接收用户通过多种方式输入的初始文本,能够提供给用户多种输入文本的方式,可以满足不同的用户需求。并且,利用命名实体模型对初始文本进行关键信息提取以得到待匹配文本,能够有效地去除无用的信息,保留关键的信息,从而根据关键信息能够更准确地匹配到需要的文本。
关于文本匹配装置的具体限定可以参见上文中对于文本匹配方法的限定,在此不再赘述。上述文本匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本匹配方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述文本匹配方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述文本匹配方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种文本匹配方法,所述方法包括:
获取待匹配文本;
获取匹配库中词的词权重,根据所述匹配库中词的词权重确定所述待匹配文本中词的词权重;其中,所述匹配库为根据输入的查询范围所确定的文本形成的,所述匹配库中的词为对所述匹配库中文本进行分词得到的;
根据所述待匹配文本中词的词权重和所述匹配库中词的词权重确定所述待匹配文本与所述匹配库中的每个文本的相似度;
根据所述相似度得到匹配结果,并输出所述匹配结果。
2.根据权利要求1所述的方法,其特征在于,所述匹配库中词的词权重的确定方式,包括:
确定匹配库中文本的数量和匹配库中词的数量;
确定所述匹配库中每个词所属文本的数量和每个词在所述匹配库的词中出现的次数;
根据所述匹配库中文本的数量、所述匹配库中词的数量、所述匹配库中每个词所属文本的数量和每个词在所述匹配库的词中出现的次数,确定每个词的词权重。
3.根据权利要求1所述的方法,其特征在于,所述获取匹配库中词的词权重,根据所述匹配库中词的词权重确定所述待匹配文本中词的词权重,包括:
将所述待匹配文本进行分词;
将所述待匹配文本的词与匹配库的词进行对比;
当在所述匹配库中存在与所述待匹配文本的词一致的词时,获取所述匹配库中一致的词的词权重;
根据所述匹配库中一致的词的词权重,得到所述待匹配文本的词的词权重;
当在所述匹配库中不存在与所述待匹配文本的词一致的词时,所述待匹配文本的词的词权重为零。
4.根据权利要求3所述的方法,其特征在于,所述匹配库中文本进行分词的方式,包括:
采用全模式分词方式将所述匹配库的每个文本进行分词;
所述将所述待匹配文本进行分词,包括:
采用精准分词方式将所述待匹配文本进行分词。
5.根据权利要求1所述的方法,其特征在于,所述根据所述待匹配文本中词的词权重和所述匹配库中词的词权重确定所述待匹配文本与所述匹配库中的每个文本的相似度,包括:
确定所述待匹配文本的词与所述匹配库中的每个文本的词相同的词的词权重之和;
根据所述待匹配文本的词与所述匹配库中的每个文本的词相同的词的词权重之和、所述待匹配文本中所有词的词权重之和与匹配库中的每个文本的词的词权重之和,确定所述待匹配文本与所述匹配库中的每个文本的相似度。
6.根据权利要求1所述的方法,其特征在于,所述根据所述相似度得到匹配结果,并输出所述匹配结果,包括:
根据所述相似度得到所述匹配库中相似度最高的文本,输出所述匹配库中相似度最高的文本。
7.根据权利要求1所述的方法,其特征在于,所述获取待匹配文本,包括:
获取输入的初始文本,采用命名实体识别模型对所述初始文本进行信息提取;
将提取的信息整理为待匹配文本。
8.一种文本匹配装置,其特征在于,所述装置包括:
获取模块,用于获取待匹配文本;
词权重确定模块,用于获取匹配库中词的词权重,根据所述匹配库中词的词权重确定所述待匹配文本中词的词权重;其中,所述匹配库为根据输入的查询范围所确定的文本形成的,所述匹配库中的词为对所述匹配库中文本进行分词得到的;
相似度计算模块,用于根据所述待匹配文本中词的词权重和所述匹配库中词的词权重确定所述待匹配文本与所述匹配库中的每个文本的相似度;
输出模块,用于根据所述相似度得到匹配结果,并输出所述匹配结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
CN201910028117.3A 2019-01-11 2019-01-11 文本匹配方法、装置、计算机设备和存储介质 Active CN109800346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910028117.3A CN109800346B (zh) 2019-01-11 2019-01-11 文本匹配方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910028117.3A CN109800346B (zh) 2019-01-11 2019-01-11 文本匹配方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN109800346A true CN109800346A (zh) 2019-05-24
CN109800346B CN109800346B (zh) 2020-12-29

Family

ID=66557172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910028117.3A Active CN109800346B (zh) 2019-01-11 2019-01-11 文本匹配方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN109800346B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704621A (zh) * 2019-09-25 2020-01-17 北京大米科技有限公司 文本处理方法、装置及存储介质和电子设备
CN111444406A (zh) * 2020-03-26 2020-07-24 安徽博约信息科技股份有限公司 一种爬虫正文匹配方法
CN111881183A (zh) * 2020-07-28 2020-11-03 北京金堤科技有限公司 企业名称匹配方法和装置、以及存储介质和电子设备
CN112541051A (zh) * 2020-11-11 2021-03-23 北京嘀嘀无限科技发展有限公司 标准文本匹配方法、装置、存储介质和电子设备
CN112667779A (zh) * 2020-12-30 2021-04-16 北京奇艺世纪科技有限公司 一种信息查询方法、装置、电子设备及存储介质
CN112989761A (zh) * 2021-05-20 2021-06-18 腾讯科技(深圳)有限公司 文本分类方法及装置
CN113239261A (zh) * 2021-06-18 2021-08-10 红盾大数据(北京)有限公司 企业名称匹配方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008010847A2 (en) * 2006-07-14 2008-01-24 Bea Systems, Inc. Improved enterprise search system
JP2011233163A (ja) * 2011-07-21 2011-11-17 Mitsubishi Electric Corp 文章対応付けシステムおよび文章対応付けプログラム
CN103077157A (zh) * 2013-01-22 2013-05-01 清华大学 一种文本集合相似性的可视化方法和装置
CN103377239A (zh) * 2012-04-26 2013-10-30 腾讯科技(深圳)有限公司 计算文本间相似度的方法和装置
CN106096024A (zh) * 2016-06-24 2016-11-09 北京京东尚科信息技术有限公司 地址相似度的评估方法和评估装置
CN108052509A (zh) * 2018-01-31 2018-05-18 北京神州泰岳软件股份有限公司 一种文本相似度计算方法、装置及服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008010847A2 (en) * 2006-07-14 2008-01-24 Bea Systems, Inc. Improved enterprise search system
JP2011233163A (ja) * 2011-07-21 2011-11-17 Mitsubishi Electric Corp 文章対応付けシステムおよび文章対応付けプログラム
CN103377239A (zh) * 2012-04-26 2013-10-30 腾讯科技(深圳)有限公司 计算文本间相似度的方法和装置
CN103077157A (zh) * 2013-01-22 2013-05-01 清华大学 一种文本集合相似性的可视化方法和装置
CN106096024A (zh) * 2016-06-24 2016-11-09 北京京东尚科信息技术有限公司 地址相似度的评估方法和评估装置
CN108052509A (zh) * 2018-01-31 2018-05-18 北京神州泰岳软件股份有限公司 一种文本相似度计算方法、装置及服务器

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704621A (zh) * 2019-09-25 2020-01-17 北京大米科技有限公司 文本处理方法、装置及存储介质和电子设备
CN110704621B (zh) * 2019-09-25 2023-04-21 北京大米科技有限公司 文本处理方法、装置及存储介质和电子设备
CN111444406A (zh) * 2020-03-26 2020-07-24 安徽博约信息科技股份有限公司 一种爬虫正文匹配方法
CN111881183A (zh) * 2020-07-28 2020-11-03 北京金堤科技有限公司 企业名称匹配方法和装置、以及存储介质和电子设备
CN112541051A (zh) * 2020-11-11 2021-03-23 北京嘀嘀无限科技发展有限公司 标准文本匹配方法、装置、存储介质和电子设备
CN112667779A (zh) * 2020-12-30 2021-04-16 北京奇艺世纪科技有限公司 一种信息查询方法、装置、电子设备及存储介质
CN112667779B (zh) * 2020-12-30 2023-09-05 北京奇艺世纪科技有限公司 一种信息查询方法、装置、电子设备及存储介质
CN112989761A (zh) * 2021-05-20 2021-06-18 腾讯科技(深圳)有限公司 文本分类方法及装置
CN113239261A (zh) * 2021-06-18 2021-08-10 红盾大数据(北京)有限公司 企业名称匹配方法及装置

Also Published As

Publication number Publication date
CN109800346B (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN109800346A (zh) 文本匹配方法、装置、计算机设备和存储介质
US9223779B2 (en) Text segmentation with multiple granularity levels
US7054803B2 (en) Extracting sentence translations from translated documents
JP3272288B2 (ja) 機械翻訳装置および機械翻訳方法
US20130060769A1 (en) System and method for identifying social media interactions
CN109815333A (zh) 信息获取方法、装置、计算机设备和存储介质
US11436282B2 (en) Methods, devices and media for providing search suggestions
US20080072134A1 (en) Annotating token sequences within documents
CN110874531A (zh) 一种话题分析方法、装置和存储介质
CN109858010A (zh) 领域新词识别方法、装置、计算机设备和存储介质
CN111046221A (zh) 歌曲推荐方法、装置、终端设备以及存储介质
CN110162778B (zh) 文本摘要的生成方法及装置
CN112256822A (zh) 文本搜索方法、装置、计算机设备和存储介质
CN107169021A (zh) 用于预测应用功能标签的方法和设备
CN112800769B (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN113076431A (zh) 机器阅读理解的问答方法、装置、计算机设备及存储介质
Sproat Lightly supervised learning of text normalization: Russian number names
CN111382570B (zh) 文本实体识别方法、装置、计算机设备及存储介质
CN109033427A (zh) 股票的筛选方法及装置、计算机设备及可读存储介质
CN111651675A (zh) 一种基于ucl的用户兴趣主题挖掘方法及装置
Ezhilarasi et al. Depicting a Neural Model for Lemmatization and POS Tagging of words from Palaeographic stone inscriptions
Collarana et al. A question answering system on regulatory documents
Mu et al. Automatic comment generation via multi-pass deliberation
Shin et al. Learning context using segment-level LSTM for neural sequence labeling
CN109359176A (zh) 数据提取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant