CN111708863B - 基于doc2vec的文本匹配方法、装置及电子设备 - Google Patents

基于doc2vec的文本匹配方法、装置及电子设备 Download PDF

Info

Publication number
CN111708863B
CN111708863B CN202010492263.4A CN202010492263A CN111708863B CN 111708863 B CN111708863 B CN 111708863B CN 202010492263 A CN202010492263 A CN 202010492263A CN 111708863 B CN111708863 B CN 111708863B
Authority
CN
China
Prior art keywords
text
target
matching
input
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010492263.4A
Other languages
English (en)
Other versions
CN111708863A (zh
Inventor
王传鹏
陈春梅
李匡宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hard Link Network Technology Co ltd
Original Assignee
Shanghai Hard Link Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hard Link Network Technology Co ltd filed Critical Shanghai Hard Link Network Technology Co ltd
Priority to CN202010492263.4A priority Critical patent/CN111708863B/zh
Publication of CN111708863A publication Critical patent/CN111708863A/zh
Application granted granted Critical
Publication of CN111708863B publication Critical patent/CN111708863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于doc2vec的文本匹配方法、装置及电子设备,所述方法包括:根据doc2vec模型,对目标文本集中任一目标文本进行n次向量转换,获取目标向量集;其中,目标向量集包括n个目标向量;将各目标文本对应的各目标向量集与根据输入文本生成的句子向量做相似度匹配,提取与句子向量匹配度最高的目标向量集对应的目标文本作为匹配文本。与现有技术相比,本申请通过对目标文本做n次向量生成后,将根据各目标文本形成的各目标向量集与输入文本生成的句子向量做相似度匹配从而确定匹配文本的方式,降低非确定性输出的目标向量的影响,使得利用doc2vec在多个目标文本中匹配最优文本时,不会因为doc2vec种子的随机性导致误匹配。

Description

基于doc2vec的文本匹配方法、装置及电子设备
技术领域
本申请涉及文本匹配技术领域,特别涉及一种基于doc2vec的文本匹配方 法、装置及电子设备。
背景技术
传统的文本匹配中,存在一种利用word2vec来实现文本匹配的方式。而由 于这种文本匹配方式是将单词转换成用户向量来表示,没有考虑到单词的顺序, 忽略了单词的语义信息,因此在面对整个句子的匹配时,word2vec的匹配准确度较低。为解决上述问题,现有技术中,通过利用doc2vec来实现文本的匹配。 由于doc2vec是创建文档的向量化表示,因此可以很好的代表整个语句,相较于 word2vec来说,更适合用于进行整体句子的匹配。在对话系统中,一般设置有 知识库,知识库中预先录入问题句子和对应的答案句子,在进行文本匹配时,将知识库中问题句子作为与用户的输入文本进行匹配的目标文本,并将输入文 本通过doc2vec生成的输入向量,与目标文本通过doc2vec生成的目标向量进行 匹配,从而根据匹配度最高的目标文本自动反馈给用户与该目标文本对应的答 案句子。
然而在利用doc2vec做特征表达时,发现由于doc2vec种子的随机性问题可 能导致非确定性输出,而数据库中一般存在较多的目标文本,将所有目标文本 通过doc2vec分别生成对应的目标向量时,这种随机性会带来计算结果的不准 确,导致可能会由于随机性的问题使得较劣目标文本(与输入文本的实际匹配 度较低)的目标向量与输入向量的匹配度,要高于较优目标文本(与输入文本 的实际匹配度较高)的目标向量与输入向量的匹配度,进而造成误匹配,因此 现有的doc2vec在面对多个目标文本时,并不能很好的从多个目标文本中匹配到 最优文本。
发明内容
本申请的目的在于至少解决现有技术中存在的技术问题之一,提供一种基 于doc2vec的文本匹配方法、装置、计算机可读存储介质以及电子设备,提高通 过doc2vec在多个目标文本中匹配最优文本时的准确度。
本申请实施例提供一种基于doc2vec的文本匹配方法,包括:
根据doc2vec模型,对目标文本集中各目标文本均进行n次向量转换,获取 各目标向量集;其中,所述目标向量集包括n个目标向量;
将各所述目标向量集与根据输入文本生成的句子向量做相似度匹配,提取 与所述句子向量匹配度最高的所述目标向量集对应的目标文本作为匹配文本。
进一步的,所述将各所述目标向量集与根据输入文本生成的句子向量做相 似度匹配,提取与所述句子向量匹配度最高的所述目标向量集对应的目标文本 作为匹配文本,包括:
对所述目标向量集的n个目标向量进行加权平均,生成特征向量;
将各所述目标文本对应的各所述特征向量与所述句子向量做相似度匹配, 提取与所述句子向量匹配度最高的所述特征向量对应的目标文本作为所述匹配 文本。
进一步的,所述将各所述目标向量集与根据输入文本生成的句子向量做相 似度匹配,提取与所述句子向量匹配度最高的所述目标向量集对应的目标文本 作为匹配文本,包括:
获取所述目标向量集的n个目标向量分别与所述句子向量做余弦相似度运 算后的n个分值,对n个分值进行加权平均,生成匹配分值;
从各所述目标文本对应的各所述匹配分值中获取最大的匹配分值,提取与 所述最大的匹配分值对应的目标文本作为所述匹配文本。
进一步的,所述对n个分值进行加权平均,包括:
提取所述n个分值中大于预设阈值的k个分值进行加权平均,生成所述匹 配分值。
进一步的,在所述根据doc2vec模型,对数据库的目标文本集中任一目标文 本进行n次向量转换之前,还包括:
对所述输入文本进行文本分类,确定所述输入文本在数据库中对应的文本 类别;
提取在所述文本类别下的所述目标文本集。
进一步的,所述对所述输入文本进行文本分类,确定所述输入文本在所述 数据库中对应的文本类别,包括:
将所述输入文本与预存的历史文本集进行文本匹配,获取所述历史文本集 中与所述输入文本的相似度最高的历史文本;其中,所述历史文本通过获取所 述终端的历史输入记录生成;
根据所述历史文本在所述数据库中对应的文本类别,确实所述输入文本的 文本类别。
进一步的,所述对所述输入文本进行文本分类,确定所述输入文本在所述 数据库中对应的文本类别,包括:
将所述输入文本与预存的历史文本集中的各历史文本进行KNN运算,确定 所述输入文本的文本类别。
进一步的,本申请实施例提供一种基于doc2vec的文本匹配装置,包括:
向量获取模块,用于根据doc2vec模型,对目标文本集中各目标文本均进行 n次向量转换,获取各目标向量集;其中,所述目标向量集包括n个目标向量;
向量匹配模块,用于将各所述目标向量集与根据输入文本生成的句子向量 做相似度匹配,提取与所述句子向量匹配度最高的所述目标向量集对应的目标 文本作为匹配文本。
进一步的,还包括:
数据分类模块,用于对所述输入文本进行文本分类,确定所述输入文本在 所述数据库中对应的文本类别;
提取在所述文本类别下的任一文本作为所述目标文本。
进一步的,本申请实施例提供一种电子设备,包括:存储器、处理器及存 储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时 实现如上述实施例所述的基于doc2vec的文本匹配方法。
进一步的,本申请实施例提供一种计算机可读存储介质,所述计算机可读 存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行 如上述实施例所述的基于doc2vec的文本匹配方法。
相比于现有技术,上述实施例通过对目标文本做n次向量生成后,将根据 各目标文本形成的各目标向量集与输入文本生成的句子向量做相似度匹配从而 确定匹配文本的方式,降低非确定性输出的目标向量的影响,使得利用doc2vec 在多个目标文本中匹配最优文本时,不会因为doc2vec种子的随机性导致误匹 配,且通过利用doc2vec种子的随机性,将目标文本通过doc2vec模型生成目标向量集,从而在整体上更能描述文本的准确语义,进而提高后续匹配结果的准 确度。
附图说明
下面结合附图和实施例对本申请进一步地说明;
图1为一个实施例中基于doc2vec的文本匹配方法的应用环境图;
图2为其中一个实施例中基于doc2vec的文本匹配方法的流程示意图;
图3为另一个实施例中基于doc2vec的文本匹配方法的流程示意图;
图4为一个实施例中智能客服系统的交互界面图;
图5为一个实施例中基于doc2vec的文本匹配装置的结构框图;
图6为另一个实施例中基于doc2vec的文本匹配装置的结构框图;
图7为一个实施例中计算机设备的结构框图。
具体实施方式
本部分将详细描述本申请的具体实施例,本申请之较佳实施例在附图中示 出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形 象地理解本申请的每个技术特征和整体技术方案,但其不能理解为对本申请保 护范围的限制。
现有基于doc2vec的文本匹配方法,是利用doc2vec生成输入文本的输入向 量以及生成目标文本的目标向量,然后将输入向量及目标向量进行距离计算, 从而确定两者的匹配分值,进而确定输入文本与目标文本是否匹配。在利用 doc2vec做特征表达时,使用的的算法部分是非确定性的,单词向量的初始化是 确定性的,但由于单词随机采样时,负采样可能导致非确定性输出,从而造成 同样的文本每次生成的句子向量存在差异性,导致当需要从多个目标文本中匹 配到最优文本时误匹配的概率会增加。
为解决上述问题,如图1所示,是一个实施例中基于doc2vec的文本匹配方 法的应用环境图。参照图1,该基于doc2vec的文本匹配方法应用于基于doc2vec 的文本匹配系统。该基于doc2vec的文本匹配系统包括终端110和服务器120。 终端110和服务器120通过网络连接。终端110具体可以是台式终端110或移动 终端110,移动终端110具体可以手机、平板电脑、笔记本电脑等中的至少一种。 服务器120可以用独立的服务器120或者是多个服务器120组成的服务器120 集群来实现。
图4为一个实施例中智能客服系统的交互界面图。参照图4,本申请实施例 提供的基于doc2vec的文本匹配方法可以用于多个领域的智能客服系统中,其应 用场景是用户通过终端110向智能客服系统提供输入文本,服务器120获取用户提供的输入文本后,根据doc2vec模型,对数据库的目标文本集中任一目标文 本进行n次向量转换,获取目标向量集,并将各目标文本对应的各目标向量集 与根据输入文本生成的句子向量做相似度匹配,提取与句子向量匹配度最高的 目标向量集对应的目标文本作为匹配文本并反馈至终端110,或者将与该匹配文 本对应的相关信息反馈给用户,例如匹配文本是数据库中预存的标准问题,而与该匹配文本对应的相关信息是该标准问题的答案文本,则将该答案文本反馈 给用户。
通过上述方式,使得利用doc2vec在多个目标文本中匹配最优文本时,不会 因为doc2vec种子的随机性导致误匹配,且还可以利用doc2vec种子的随机性,将目标文本通过doc2vec模型生成目标向量集,从而在整体上更能描述文本的准 确语义,进而提高后续匹配结果的准确度。
可以理解的是,本申请实施例提供的基于doc2vec的文本匹配方法不限于应 用在购物领域和游戏领域的智能客服系统中,还可以包括天气查询领域、医疗 咨询领域、政务咨询领域、保险咨询领域等不同的领域,在所述技术领域普通 技术人员所具备的知识范围内,本申请实施例提供的基于doc2vec的文本匹配方 法可以根据本领域技术人员的具体业务需求应用在不同领域的智能客服系统中。
下面,将通过几个具体的实施例对本申请实施例提供的基于doc2vec的文本 匹配方法进行详细介绍和说明。
如图2所示,在一个实施例中,提供了一种基于doc2vec的文本匹配方法。 本实施例主要以该方法应用于计算机设备来举例说明。该计算机设备具体可以 是上述图1中的服务器120。
参照图2,该基于doc2vec的文本匹配方法具体包括如下步骤:
步骤S11,根据doc2vec模型,对目标文本集中各目标文本均进行n次向量 转换,获取各目标向量集。
其中,目标向量集包括n个目标向量。
由于doc2vec种子的随机性会造成每次生成的句子向量的差异性,因此在一 实施例中,将目标文本多次通过doc2vec进行向量转换,每次转换均会生成一个 目标向量,从而根据这些目标向量组成目标向量集。而为了保证后续匹配的准确度,目标向量集中的目标向量不能过少,但由于每次转换均需要耗费一定时 长,若需求的目标向量过多,则会导致耗时过长。因此为平衡匹配精度和计算 时长,n的取值范围被确定为10~20。优选的,通过实测,n的取值为11。
步骤S12,将各目标向量集与根据输入文本生成的句子向量做相似度匹配, 提取与句子向量匹配度最高的目标向量集对应的目标文本作为匹配文本。
在一实施例中,输入文本可以是通过如手机、笔记本电脑和平板电脑等终 端设备获得。目标向量集与句子向量的匹配方式可以是通过将由n个目标向量 集组成的所有目标向量,与输入向量做knn运算,从而确定与输入向量匹配度 最高的目标向量集,进而将该目标向量集对应的目标文本作为匹配文本。由于 doc2vec种子的随机性,因此可能会出现重叠较多的向量,因此采用knn算法确 定匹配文本是一种较好的方式。但是,knn算法的运算量太大,不适合样本过多的运算,因此当目标向量的数量过多时,采用knn算法并不合适。且由于通过 knn算法需要确定最合适的k值,若k值选取不合适,则可能出现误匹配的情况。
为此,作为上述实施例的改进,在一实施例中,先将目标向量集转换为特 征向量后,再将特征向量与句子向量做相似度匹配,从而得到目标文本与输入 文本的相似度。如对目标向量集的n个目标向量进行加权平均,生成特征向量 后,将各目标文本对应的各特征向量与句子向量做相似度匹配,提取与句子向量匹配度最高的特征向量对应的目标文本作为匹配文本。其中,通过这种方式 生成特征向量时,由于无法确定各个目标向量对匹配准确度的影响程度,因此 每个目标向量的权重相同。各特征向量通过分别与句子向量做余弦相似度运算, 获取各特征向量与句子向量的相似度分值,进而提取与相似度分值最高的特征 向量对应的目标文本作为匹配文本。通过这种方式,降低了目标向量集与句子 向量匹配时计算的复杂度,节省了系统的计算开销。
除了可以对目标向量进行上述实施例的处理外,由于输入文本也需要生成 输入向量,因此为了保证输入向量的准确性,在一实施例中,可采用上述实施例中生成特征向量的处理方式,对输入文本通过doc2vec模型进行n次向量转换, 获取初始向量集后,对初始向量集的n个初始向量进行加权平均,生成输入向 量,从而确保输入向量的准确度。
由于算数平均数受抽样的影响较小,而通过doc2vec生成目标文本集可以看 成一种抽样方式,因此利用算术平均的思想,使根据目标向量集得到的特征向 量与输入向量进行余弦相似度计算时,在大多数情况下得到的分值是可信的, 因此可以较好的实现输入文本与目标文本的匹配。但由于算术平均容易受一组 数据中极端数值的影响,即当目标文本集中有一目标向量与其他目标向量差异 过大时,可能会导致最终匹配的分值不准确。因此,作为上述实施例的另一改进,在一实施例中,通过获取目标向量集的n个目标向量分别与句子向量进行 相似度匹配后的n个分值,对n个分值进行加权平均,生成匹配分值后,从各 目标文本对应的各匹配分值中获取最大的匹配分值,提取与最大的匹配分值对 应的目标文本作为匹配文本。具体的,获取目标向量集的n个目标向量分别与 句子向量进行相似度匹配后的n个分值,按分值高低赋予不同权重。其中,分 值越高,赋予的权重越高,具体的权重大小可按预先设定的比例进行分配,在 此不多赘述。为进一步增加后续匹配的准确度,优选的,匹配分值的生成方式可以为提取n个分值中大于预设阈值的k个分值进行加权平均,生成匹配分值, 即将n个分值中小于预设阈值的分值的权重降为0,从而提高相似度较高的目标向量的权重,进而提高匹配的准确率。其中,k≤n。
由于服务器的计算开销还取决于当前输入文本的数量,因此,为进一步平 衡匹配精度和计算开销,在一实施例中,当检测到当前输入文本的数量超过预 设值时,则对每个输入文本的匹配方式为通过获取目标向量集的n个目标向量 分别与句子向量进行相似度匹配后的n个分值,对n个分值进行加权平均,生 成匹配分值后,从各目标文本对应的各匹配分值中获取最大的匹配分值,提取与最大的匹配分值对应的目标文本作为匹配文本,从而节省计算开销,能在面 对多个输入文本时也能及时响应;当检测到当前输入文本的数量小于预设值时, 则对每个输入文本的匹配方式为通过上述knn运算、加权生成特征向量以及对 分值进行加权平均的方式分别进行匹配,输出三个匹配文本,并选取三个匹配 文本中相同的匹配文本作为最终的匹配文本,从而在不需要耗费过多计算开销 的同时,进一步提高匹配的准确率。
在另一个实施例中,如图3所示,提供了一种基于doc2vec的文本匹配方法。 本实施例主要以该方法应用于计算机设备来举例说明。该计算机设备具体可以 是上述图1中的服务器120。
参照图3,该基于doc2vec的文本匹配方法除上述实施例所述的步骤外,还 包括:
步骤S10,对输入文本进行文本分类,确定输入文本在数据库中对应的文本 类别后,提取在文本类别下的目标文本集。
由于一个智能客服系统可以同时涉及多个领域,例如游戏平台会同时销售 与游戏角色有关的游戏角色的手办,因此该游戏平台的智能客服系统可能同时 涉及购物领域和游戏领域。此时将本申请实施例提供的基于doc2vec的文本匹配 方法应用在该智能客服系统中时,可能由于输入文本过长,一个输入文本中可能包含有两个领域的关键词,例如输入文本为“我购买的游戏角色何时发货”,此 时用户的意思可能是其在购物平台购买的“游戏角色手办”何时发货,也有可能是 其在游戏中购买的“游戏角色游戏角色”何时发货。此时由于输入文本过长而带来 了二义性问题,如果智能客服系统不能够应对输入文本的二义性问题,而只给 出其中一个意思对应的答案,会导致用户无法匹配到合适的目标文本,造成用 户需要不断调整输入文本,增加用户交互成本,也增加了服务器120的能耗, 因此在一实施例中,通过先对输入文本进行分类,避免出现由于输入文本的二 义性导致匹配不到合适文本的情况。
需要说明的是,数据库中的文本按照领域划分为多个文本类别,例如购物 领域、游戏领域等。本申请实施例中对输入文本进行文本分类,通过文本分类 来识别出输入文本可能具有的多个语义,从而保证不会漏掉不同语义对于的目 标文本,将对应于多个语义的目标文本反馈给用户,减少用户交互成本,此外, 通过预先将输入文本进行分类的方式,使得输入文本进行匹配时不需要对整个数据库的目标文本进行匹配,只需要进行局部的文本匹配,进而减少计算开销。
在一实施例中,数据库中的每个文本按照领域都被划分为确定的文本类别, 为了确定输入文本在数据库中对应的文本类别,数据库中的每个文本类别对应 设置有类别集合,类别集合中的元素为代表该文本类别的标注文档。确定输入 文本在数据库中对应的文本类别实际就是对输入文本进行文本分类,本实施例 中采用KNN算法查找数据库的多个类别集合中与输入文本距离最接近的k篇相 邻(相似或相同)标注文档,然后根据这K篇邻近文档的分类标注来输入文本的文本类别。
可以理解的是,为了提高文本分类的准确率,数据库的类别集合中的标注 文档数量不会太少,如果每次对输入文本进行文本分类都与类别集合中的标注 文档进行KNN运算,会增加服务器的能耗。因此本实施例中,确定输入文本在 数据库中对应的文本类别的方法为:将输入文本与预存的历史文本集进行基于 doc2vec的文本匹配,获取历史文本集中与输入文本的相似度最高的历史文本。 其中,历史文本通过获取终端的历史输入记录生成。对输入文本进行文本分类,确定输入文本在数据库中对应的文本类别。一般地,考虑到每个终端的用户一 般涉及的领域和提问的内容变化都在一定范围内,不会变动太大,因此服务器 会记录每个终端提供的输入文本以及相应输入文本对应的文本类别。在该终端 的用户再次与智能客服系统进行对话时,服务器首先会将输入文本与该终端的 历史文本集进行比较,通过计算输入文本与历史文本的杰卡德相似系数获取所 述历史文本集中与所述输入文本的相似度最高的历史文本,再将与所述输入文本的相似度最高的历史文本对应于数据库中的文本类别作为输入文本的类别。 由于只是为了得到输入文本所属的文本类别,对输入文本的语义要求并不是很 高,因此为了快速确定输入文本的类别,可采用计算杰卡德相似系数的方式进 行文本匹配,且由于历史文本集中的文本数量少于类别集合中的标注文档的数 量,因此极大提高了文本分类的效率,减少了服务器能耗。
在一实施例中,由于历史文本集中的每个历史文本的文本类别都已经得到 标注,因此可以将所述输入文本与预存的历史文本集中的各历史文本进行KNN 运算,确定所述输入文本的文本类别。由于历史文本集中的文本数量少于类别 集合中的标注文档的数量,因此极大提高了文本分类的效率,减少了服务器的计算开销。
如图5所示,在一个实施例中,提供了一种基于doc2vec的文本匹配装置, 包括:
向量获取模块101,用于根据doc2vec模型,对目标文本集中各目标文本均 进行n次向量转换,获取各目标向量集。
其中,目标向量集包括n个目标向量。
向量匹配模块102,用于将各目标向量集与根据输入文本生成的句子向量做 相似度匹配,提取与句子向量匹配度最高的目标向量集对应的目标文本作为匹 配文本。
在一实施例中,向量匹配模块102具体用于,对目标向量集的n个目标向 量进行加权平均,生成特征向量。将各目标文本对应的各特征向量与句子向量 做相似度匹配,提取与句子向量匹配度最高的特征向量对应的目标文本作为匹 配文本。
在另一实施例中,向量匹配模块102具体用于,获取目标向量集的n个目 标向量分别与句子向量进行相似度匹配后的n个分值,对n个分值进行加权平 均,生成匹配分值。从各目标文本对应的各匹配分值中获取最大的匹配分值, 提取与最大的匹配分值对应的目标文本作为匹配文本。其中,对n个分值进行 加权平均包括:提取n个分值中大于预设阈值的k个分值进行加权平均,生成 匹配分值。
在又一实施例中,向量匹配模块102具体用于,当检测到当前输入文本的 数量超过预设值时,则对每个输入文本的匹配方式为通过获取目标向量集的n 个目标向量分别与句子向量进行相似度匹配后的n个分值,对n个分值进行加 权平均,生成匹配分值后,从各目标文本对应的各匹配分值中获取最大的匹配分值,提取与最大的匹配分值对应的目标文本作为匹配文本;当检测到当前输 入文本的数量小于预设值时,则对每个输入文本的匹配方式为通过knn运算、 加权生成特征向量以及对分值进行加权平均的方式分别进行匹配,输出三个匹 配文本,并选取三个匹配文本中相同的匹配文本作为最终的匹配文本。
在另一个实施例中,如图6所示,基于doc2vec的文本匹配装置还包括:
数据分类模块100,用于对输入文本进行文本分类,确定输入文本在数据库 中对应的文本类别。提取在文本类别下的任一文本作为目标文本。
在一实施例中,数据分类模块100具体用于,将输入文本与预存的历史文 本集进行文本匹配,获取历史文本集中与输入文本的相似度最高的历史文本。 其中,历史文本通过获取终端的历史输入记录生成。根据历史文本在数据库中 对应的文本类别,确实输入文本的文本类别。
在另一实施例中,数据分类模块100具体用于,获取预存的历史文本集中 各历史文本的文本类别后,将输入文本与各历史文本进行KNN运算,确定输入 文本的文本类别。
图7示出了一个实施例中计算机设备的内部结构图。如图7所示,该计算 机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、 输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算 机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算 机程序被处理器执行时,可使得处理器实现基于doc2vec的文本匹配方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理 器执行基于doc2vec的文本匹配方法。本领域技术人员可以理解,图7中示出的 结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多 或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的基于doc2vec的文本匹配装置可以实现为一 种计算机程序的形式,计算机程序可在如图7所示的计算机设备上运行。计算 机设备的存储器中可存储组成该基于doc2vec的文本匹配装置的各个程序模块。 各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个 实施例的基于doc2vec的文本匹配方法中的步骤。
在一个实施例中,提供了一种电子设备,包括:存储器、处理器及存储在 存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时执行 上述基于doc2vec的文本匹配方法的步骤。此处基于doc2vec的文本匹配方法的步骤可以是上述各个实施例的基于doc2vec的文本匹配方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,所述计算机可读存储 介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述 基于doc2vec的文本匹配方法的步骤。此处基于doc2vec的文本匹配方法的步骤可以是上述各个实施例的基于doc2vec的文本匹配方法中的步骤。
以上所述是本申请的优选实施方式,应当指出,对于本技术领域的普通技 术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这 些改进和润饰也视为本申请的保护范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算 机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。 其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。

Claims (4)

1.一种基于doc2vec的文本匹配方法,其特征在于,包括:
根据doc2vec模型,对目标文本集中各目标文本均进行n次向量转换,获取各目标向量集;其中,所述目标向量集包括n个目标向量,n 的取值范围为 10~20;
在所述根据doc2vec模型,对数据库的目标文本集中任一目标文本进行n次向量转换之前,还包括:对输入文本进行文本分类,确定所述输入文本在数据库中对应的文本类别后,提取在所述文本类别下的目标文本集;对所述输入文本进行文本分类,确定所述输入文本在所述数据库中对应的文本类别,包括:将所述输入文本与所述输入文本的终端预存的历史文本集进行文本匹配,获取所述历史文本集中与所述输入文本的相似度最高的历史文本;其中,所述历史文本通过获取所述终端的历史输入记录生成;根据与所述输入文本的相似度最高的历史文本在所述数据库中对应的文本类别,确定所述输入文本的文本类别;
将各所述目标向量集与根据输入文本生成的句子向量做相似度匹配,提取与所述句子向量匹配度最高的所述目标向量集对应的目标文本作为匹配文本;
所述将各所述目标向量集与根据输入文本生成的句子向量做相似度匹配,提取与所述句子向量匹配度最高的所述目标向量集对应的目标文本作为匹配文本,包括:
获取所述目标向量集的n个目标向量分别与所述句子向量进行相似度匹配后的n个分值,按分值高低赋予不同权重,其中,分值越高,赋予的权重越高;对所述n个分值进行加权平均,生成匹配分值;
从各所述目标文本对应的各所述匹配分值中获取最大的匹配分值,提取与所述最大的匹配分值对应的目标文本作为所述匹配文本;
对n个分值进行加权平均,包括:
提取所述n个分值中大于预设阈值的k个分值进行加权平均,生成所述匹配分值,其中,k≤n。
2.根据权利要求1所述的一种基于doc2vec的文本匹配方法,其特征在于,所述对所述输入文本进行文本分类,确定所述输入文本在所述数据库中对应的文本类别,包括:
获取预存的历史文本集中各历史文本的文本类别;
将所述输入文本与所述各历史文本进行KNN运算,确定所述输入文本的文本类别。
3.一种基于doc2vec的文本匹配装置,其特征在于,包括:
数据分类模块,用于对输入文本进行文本分类,确定所述输入文本在数据库中对应的文本类别后,提取在所述文本类别下的目标文本集;对所述输入文本进行文本分类,确定所述输入文本在所述数据库中对应的文本类别,包括:将所述输入文本与所述输入文本的终端预存的历史文本集进行文本匹配,获取所述历史文本集中与所述输入文本的相似度最高的历史文本;其中,所述历史文本通过获取所述终端的历史输入记录生成;根据与所述输入文本的相似度最高的历史文本在所述数据库中对应的文本类别,确定所述输入文本的文本类别;
向量获取模块,用于根据doc2vec模型,对目标文本集中各目标文本均进行n次向量转换,获取各目标向量集;其中,所述目标向量集包括n个目标向量,n 的取值范围为 10~20;
向量匹配模块,用于将各所述目标向量集与根据输入文本生成的句子向量做相似度匹配,提取与所述句子向量匹配度最高的所述目标向量集对应的目标文本作为匹配文本;
所述将各所述目标向量集与根据输入文本生成的句子向量做相似度匹配,提取与所述句子向量匹配度最高的所述目标向量集对应的目标文本作为匹配文本,包括:
获取所述目标向量集的n个目标向量分别与所述句子向量进行相似度匹配后的n个分值,按分值高低赋予不同权重,其中,分值越高,赋予的权重越高;对所述n个分值进行加权平均,生成匹配分值;
从各所述目标文本对应的各所述匹配分值中获取最大的匹配分值,提取与所述最大的匹配分值对应的目标文本作为所述匹配文本;
对n个分值进行加权平均,包括:
提取所述n个分值中大于预设阈值的k个分值进行加权平均,生成所述匹配分值,其中,k≤n。
4.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至2中任一项所述的基于doc2vec的文本匹配方法。
CN202010492263.4A 2020-06-02 2020-06-02 基于doc2vec的文本匹配方法、装置及电子设备 Active CN111708863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010492263.4A CN111708863B (zh) 2020-06-02 2020-06-02 基于doc2vec的文本匹配方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010492263.4A CN111708863B (zh) 2020-06-02 2020-06-02 基于doc2vec的文本匹配方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111708863A CN111708863A (zh) 2020-09-25
CN111708863B true CN111708863B (zh) 2024-03-15

Family

ID=72538562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010492263.4A Active CN111708863B (zh) 2020-06-02 2020-06-02 基于doc2vec的文本匹配方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111708863B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947909A (zh) * 2018-06-19 2019-06-28 平安科技(深圳)有限公司 智能客服应答方法、设备、存储介质及装置
CN110008396A (zh) * 2018-11-28 2019-07-12 阿里巴巴集团控股有限公司 对象信息推送方法、装置、设备及计算机可读存储介质
CN110362651A (zh) * 2019-06-11 2019-10-22 华南师范大学 检索和生成相结合的对话方法、系统、装置和存储介质
US10467261B1 (en) * 2017-04-27 2019-11-05 Intuit Inc. Methods, systems, and computer program product for implementing real-time classification and recommendations
CN111027316A (zh) * 2019-11-18 2020-04-17 大连云知惠科技有限公司 文本处理方法、装置、电子设备及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467261B1 (en) * 2017-04-27 2019-11-05 Intuit Inc. Methods, systems, and computer program product for implementing real-time classification and recommendations
CN109947909A (zh) * 2018-06-19 2019-06-28 平安科技(深圳)有限公司 智能客服应答方法、设备、存储介质及装置
CN110008396A (zh) * 2018-11-28 2019-07-12 阿里巴巴集团控股有限公司 对象信息推送方法、装置、设备及计算机可读存储介质
CN110362651A (zh) * 2019-06-11 2019-10-22 华南师范大学 检索和生成相结合的对话方法、系统、装置和存储介质
CN111027316A (zh) * 2019-11-18 2020-04-17 大连云知惠科技有限公司 文本处理方法、装置、电子设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张彪 ; 戴兴国 ; .基于指标距离与不确定度量的岩爆云模型预测研究.岩土力学.2017,(第S2期),全文. *

Also Published As

Publication number Publication date
CN111708863A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
JP7302022B2 (ja) テキスト分類方法、装置、コンピュータ読み取り可能な記憶媒体及びテキスト分類プログラム。
CN109947909B (zh) 智能客服应答方法、设备、存储介质及装置
CN111459977B (zh) 自然语言查询的转换
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
US11790174B2 (en) Entity recognition method and apparatus
CN110941951B (zh) 文本相似度计算方法、装置、介质及电子设备
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
CN111414746A (zh) 一种匹配语句确定方法、装置、设备及存储介质
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN114116997A (zh) 知识问答方法、装置、电子设备及存储介质
CN111639162A (zh) 信息交互方法和装置、电子设备和存储介质
CN111737607B (zh) 数据处理方法、装置、电子设备以及存储介质
CN111143515B (zh) 文本匹配方法及装置
CN111708872B (zh) 对话方法、装置及电子设备
CN111708863B (zh) 基于doc2vec的文本匹配方法、装置及电子设备
CN111708862B (zh) 文本匹配方法、装置及电子设备
CN114461665B (zh) 用于生成语句转换模型的方法、装置及计算机程序产品
CN116127066A (zh) 文本聚类方法、文本聚类装置、电子设备及存储介质
CN111708884A (zh) 文本分类方法、装置及电子设备
CN113449094A (zh) 语料获取方法、装置、电子设备及存储介质
CN112650951A (zh) 一种企业相似度匹配方法、系统和计算装置
CN116798417B (zh) 语音意图识别方法、装置、电子设备及存储介质
CN113793191B (zh) 商品的匹配方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant