CN111143515B - 文本匹配方法及装置 - Google Patents

文本匹配方法及装置 Download PDF

Info

Publication number
CN111143515B
CN111143515B CN201911381896.1A CN201911381896A CN111143515B CN 111143515 B CN111143515 B CN 111143515B CN 201911381896 A CN201911381896 A CN 201911381896A CN 111143515 B CN111143515 B CN 111143515B
Authority
CN
China
Prior art keywords
text
target
classification
word segmentation
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911381896.1A
Other languages
English (en)
Other versions
CN111143515A (zh
Inventor
沈蕙心
龙凤
侯兴林
李伟
李彦
亓超
马宇驰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911381896.1A priority Critical patent/CN111143515B/zh
Publication of CN111143515A publication Critical patent/CN111143515A/zh
Application granted granted Critical
Publication of CN111143515B publication Critical patent/CN111143515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明实施例公开了一种文本匹配方法及装置,包括:获取待处理的目标文本;根据预设的分词规则对所述目标文本进行分词处理生成至少一个特征词向量;基于所述至少一个特征词向量,对所述目标文本进行分类生成分类集,其中,所述分类集包括至少两个成层级关系分布的分类结果;根据所述分类集在预设的剧本文档中匹配与所述目标文本对应的回复文本。通过层级分布关系能够层级确定回复文本,因此,能够提高了文本匹配的准确性,且层次匹配能够避免用户在会话过程中发生意外或者转移话题时,能够匹配到与其话题对应的回复信息,提高会话的流畅度和用户体验。

Description

文本匹配方法及装置
技术领域
本发明实施例涉及人工智能领域,尤其是一种文本匹配方法及装置。
背景技术
用户画像最初是在电商领域得到应用的,在大数据时代背景下,用户信息充斥在网络中,将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。
现有技术中,为收集用户的用户画像,会通过制定对话剧本,根据对话剧本与用户进行对话,在对话过程中收集用户信息生成用户画像。本发明创造的发明人在研究中发现,现有技术中通过会话信息获取用户画像时,用户必须严格按照剧本设计的逻辑进行,如果用户中途出现任何偏差,均会导致收集的用户信息无法与剧本内容对应,进而使用户的标签出现紊乱。因此,现有技术中,会话信息收集过程中对环境变化的适应性较弱,无法在与用户正常交流中获取有用信息。
发明内容
本发明实施例提一种能够对文本信息进行准确匹配的文本匹配方法及装置。
第一方面,提供一种文本匹配方法,包括:
获取待处理的目标文本;
根据预设的分词规则对所述目标文本进行分词处理生成至少一个特征词向量;
基于所述至少一个特征词向量,对所述目标文本进行分类生成分类集,其中,所述分类集包括至少两个成层级关系分布的分类结果;
根据所述分类集在预设的剧本文档中匹配与所述目标文本对应的回复文本。
可选地,所述获取待处理的目标文本包括:
获取目标用户的用户语音;
将所述用户语音进行语音转换处理生成目标字段;
根据所述目标字段生成所述目标文本。
可选地,所述根据预设的分词规则对所述目标文本进行分词处理生成至少一个特征词向量包括:
将所述目标文本进行切分生成多个分词集,其中,各分词集中均包括至少一个分词元素;
基于相邻两个分词元素之间的组合概率,计算所述各分词集对应的分词概率;
基于预设的词汇表,将所述各分词集中分词概率最大的分词集进行映射转化生成所述至少一个特征词向量。
可选地,所述对所述目标文本进行分类生成分类集包括:
将所述至少一个特征词向量组装成目标特征数组;
将所述目标特征数组输入至预设的文本分类模型中,其中,所述文本分类模型为预先训练至收敛状态,用于对文本信息进行多级分类的分类模型;
读取所述文本分类模型输出的所述分类集。
可选地,所述将所述至少一个特征词向量组装成目标特征数组包括:
将所述至少一个特征词向量组装成全量特征数组;
根据预设的等分阈值将所述全量特征数组进行切分形成多个局部特征数组;
选择所述多个局部特征数组中的一个局部特征数组为所述目标特征数组。
可选地,所述剧本文档包括多条对话文本,各对话文本均对应设置有标签文件,各标签文件成层级关系分布,所述根据所述分类集在预设的剧本文档中匹配与所述目标文本对应的回复文本包括:
根据分类集中的层级关系依次查找各分类结果对应的标签文件;
确定所述分类集中位于叶子节点位置的分类结果对应的标签文件的对话文本为所述回复文本。
可选地,所述根据所述分类集在预设的剧本文档中匹配与所述目标文本对应的回复文本之后,包括:
根据所述回复文本和分词集生成目标用户的用户标签;
将所述用户标签写入到所述目标用户的用户画像文本中。
第二方面,提供一种文本匹配装置,包括:
获取模块,用于获取待处理的目标文本;
分词模块,用于根据预设的分词规则对所述目标文本进行分词处理生成至少一个特征词向量;
处理模块,用于基于所述至少一个特征词向量,对所述目标文本进行分类生成分类集,其中,所述分类集包括至少两个成层级关系分布的分类结果;
执行模块,用于根据所述分类集在预设的剧本文档中匹配与所述目标文本对应的回复文本。
可选地,所述文本匹配装置还包括:
第一获取子模块,用于获取目标用户的用户语音;
第一处理子模块,用于将所述用户语音进行语音转换处理生成目标字段;
第一执行子模块,用于根据所述目标字段生成所述目标文本。
可选地,所述文本匹配装置还包括:
第一分词子模块,用于将所述目标文本进行切分生成多个分词集,其中,各分词集中均包括至少一个分词元素;
第二处理子模块,用于基于相邻两个分词元素之间的组合概率,计算所述各分词集对应的分词概率;
第二执行子模块,用于基于预设的词汇表,将所述各分词集中分词概率最大的分词集进行映射转化生成所述至少一个特征词向量。
可选地,所述文本匹配装置还包括:
第一生成子模块,用于将所述至少一个特征词向量组装成目标特征数组;
第三处理子模块,用于将所述目标特征数组输入至预设的文本分类模型中,其中,所述文本分类模型为预先训练至收敛状态,用于对文本信息进行多级分类的分类模型;
第三执行子模块,用于读取所述文本分类模型输出的所述分类集。
可选地,所述文本匹配装置还包括:
第二生成子模块,用于将所述至少一个特征词向量组装成全量特征数组;
第四处理子模块,用于根据预设的等分阈值将所述全量特征数组进行切分形成多个局部特征数组;
第四执行子模块,用于选择所述多个局部特征数组中的一个局部特征数组为所述目标特征数组。
可选地,所述剧本文档包括多条对话文本,各对话文本均对应设置有标签文件,各标签文件成层级关系分布,所述文本匹配装置还包括:
第五处理子模块,用于根据分类集中的层级关系依次查找各分类结果对应的标签文件;
第五执行子模块,用于确定所述分类集中位于叶子节点位置的分类结果对应的标签文件的对话文本为所述回复文本。
可选地,所述文本匹配装置还包括:
第六处理子模块,用于根据所述回复文本和分词集生成目标用户的用户标签;
第六执行子模块,用于将所述用户标签写入到所述目标用户的用户画像文本中。
第三方面,提供一种电子设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述文本匹配方法的步骤。
第四方面,提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述文本匹配方法的步骤。
本发明实施例的有益效果是:通过将获取到的目标文本进行分词,然后,将分词生成的特征词向量进行分类,分类生成多个分类结果,且多个分类结果之间具有层级关系分布。因此,在进行剧本匹配时,能够循序渐进的在剧本文档中查找到与用户目标文本对应的回复文本。由于,通过层级分布关系能够层级确定回复文本,因此,能够提高了文本匹配的准确性,且层次匹配能够避免用户在会话过程中发生意外或者转移话题时,能够匹配到与其话题对应的回复信息,提高会话的流畅度和用户体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例文本匹配方法的基本流程示意图;
图2为本发明实施例获取目标文本的流程示意图;
图3为本发明实施例筛选分词集的流程示意图;
图4为本发明实施例根据特征数据对目标文本进行分类的流程示意图;
图5为本发明实施例目标特征数组的一种生成示意图;
图6为本发明实施例通过标签文件进行匹配的流程示意图;
图7为本发明实施例剧本文档的一种分布示意图;
图8为本发明实施例用户画像的生成示意图;
图9为本发明实施例文本匹配装置基本结构示意图;
图10为本发明实施例电子设备基本结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
具体请参阅图1,图1为本实施例文本匹配方法的基本流程示意图。
如图1所示,一种文本匹配方法,包括:
S1100、获取待处理的目标文本;
本实施方式中,目标文本是指记录有用户信息或者用户会话信息的文本。目标文本中记载的会话信息能够是用户一个完整对话的对话信息,也能够是用户单句提问信息或者回答信息。
获取目标文本的方式为:将用户的语音信息进行转化文字信息后得到。但是目标文本的获取方式不局限于此,根据具体应用场景的不同,目标文本的获取方式能够为(不限于):通过读取本地或者服务器端存储的会话资料或者用户信息得到、通过拉起用户在聊天软件中的聊天信息后得到或者解析用户的会话视频后生成目标文本。
S1200、根据预设的分词规则对所述目标文本进行分词处理生成至少一个特征词向量;
获取目标文档后,根据预设的分词规则对目标文本进行分词处理。分词规则具体是指对目标文本的分词方式,本实施方式中的分词方法包括(不限于):机械分词法、正向最大匹配分词法、逆向最大匹配分词法、基于统计的分词法、基于规则的分词法或者基于字标注的中文分词法。
通过上述分词规则中的任意一种,对目标文本进行分词处理形成多个分词。依次将多个分词进行向量转化形成特征词向量,特征词向量的转化过程就是将各分词或短语被映射到实数的向量。具体地,对分词进行转化的方式为:训练至收敛用于对分词或短语进行向量转化的神经网络模型、单词共生矩阵的降维、概率模型、可解释的知识库方法或术语的显式表示等转化方式。
将转化后的特征词向量按其在分词序列中的位置依次进行排列生成特征数组。其中,特征词向量的数量与目标文本的长度成正比,目标文本的长度越长则产生的特征词向量越多;反之,则特征词向量的越少。
S1300、基于所述至少一个特征词向量,对所述目标文本进行分类生成分类集,其中,所述分类集包括至少两个成层级关系分布的分类结果;
将基于特征词向量生成的特征数组进行特征提取和分类,进行分类的方法为通过FastText模型对特征数组进行分类。但是分类的方法不局限于此,根据具体应用场景的不同,在一些实施方式中,能够通过预先训练至收敛状态,用于对文本进行分类的神经网络模型对特征数组进行分类,区别于常规神经网络模型的是,本实施方式中,神经网络模型输出的分类结果不唯一,且多个分类结果之间形成树形的拓扑关系图。
本实施方式中,FastText模型的输出层输出的目标文本的分类结果有多个,多个分类结果之间具有层级关系,基于该层级关系将分类集中的多个分类结果之间进行层级连接。例如,目标文本中记录的信息为用户对其名称的陈述“我叫张XX,曾用名为张X蛋”,进行分类后得到的分类结果包括:基本信息、姓名和曾用名三个分类结果,根据层级关系,基本信息为父级节点位于第一层级,姓名为父级节点的子节点位于第二层级,曾用名为父级节点的子节点位于第二层级,三个节点组成一个属性分叉的拓扑结构。
FastText模型在进行训练之前,通过现有的知识图谱构建一个或者多个树形拓扑结构的分类类别,对于训练数据进行多级标注并写明标注之间的层级连接关系,通过反复迭代的训练,训练至收敛状态的FastText模型能够快速准确地将输入文本进行多级分类。
S1400、根据所述分类集在预设的剧本文档中匹配与所述目标文本对应的回复文本。
本实施方式中,回复文本是指回应目标文本的文字信息,当目标文本为回答语句时,回复文本为回答语句对应的下一个提问问题;当目标文本为问答句时,回复文本为回答问答句的答案。例如,目标文本为“我今年36岁”,回复文本的内容为“那今年是你的本命年吗”;目标文本内容为“你觉得我的年龄大吗”,回复文本的内容为“不会,你现在正当时”。
在一些实施方式中,回复文本为目标文本的近义语句,在该应用场景中,由于,不同用户对同一问题或者事物提问的方式不同,为对不同用户的提问进行统一的回复,需要将其转化为剧本文档中记载的标准文字信息,该标准文字信息为回复文本。例如,目标文本记载的内容为“你多大了”,而剧本文档对年龄的提问语句为“你的年龄是多少”,因此,需要将目标文档对应到剧本文档中具有相同意思表示的文字信息上。
根据分类集中的多个分类结果以及分类结果之间的层级关系,在预先设置的剧本文档中根据层级关系依次确定目标文本的回复信息。例如,分类集中包括:基本信息、姓名和曾用名三个分类结果,则根据“基本信息”确定目标文本在剧本文档中映射关系的大致范围,然后,再根据“姓名和曾用名”的分类结果在已经确定的映射关系的大致范围内确定具体的回复信息。
在一些实施方式中,为使分类集与剧本文档之间进行快速适配,将剧本文档中的信息也按层级进行划分,并标注不同信息所属的类别标签,进行匹配时,将分类集与类别标签进行快速匹配,能够进一步的提高匹配效率。
上述实施方式,通过将获取到的目标文本进行分词,然后,将分词生成的特征词向量进行分类,分类生成多个分类结果,且多个分类结果之间具有层级关系分布。因此,在进行剧本匹配时,能够循序渐进的在剧本文档中查找到与用户目标文本对应的回复文本。由于,通过层级分布关系能够层级确定回复文本,因此,能够提高了文本匹配的准确性,且层次匹配能够避免用户在会话过程中发生意外或者转移话题时,能够匹配到与其话题对应的回复信息,提高会话的流畅度和用户体验。
在一些实施方式中,目标文本是根据用户的语音信息转化后得到。请参阅图2,图2为本实施例获取目标文本的流程示意图。
如图2所示,S1100包括:
S1111、获取目标用户的用户语音;
本实施方式中,目标文本由用户语音进行文字转化后生成,因此,在获取目标文本之前需要获取目标用户的用户语音。目标用户是指正在与智能系统进行交互或者正在进行会话的单个或者多个用户。
用户语音的获取方式能够通过录音装置获取,也能够从终端聊天软件中进行语音信息的拉取。
S1112、将所述用户语音进行语音转换处理生成目标字段;
获取目标用户的用户语音后,将用户语音通过OCR或者OpenCV等语音转文字的方式,将用户语音转换为目标字段,目标字段为用户语音转换为文字后的文字字段。
S1113、根据所述目标字段生成所述目标文本。
针对于每一个目标用户或者每一个会话环境新建一个空白文档,获取由用户语音转换后的目标字段后,将目标字段逐条写入到空白文档中生成目标文本。
在一些实施方式中,在进行分词时,需要考察分词结构的合理程度,只有准确的分词结果才能够提高分类的准确率。请参阅图3,图3为本实施例筛选分词集的流程示意图。
如图3所示,S1200包括:
S1211、将所述目标文本进行切分生成多个分词集,其中,各分词集中均包括至少一个分词元素;
本实施方式将分词问题看做一个多分类问题,因此,在进行分词时,通过机械分词法、正向最大匹配分词法、逆向最大匹配分词法、基于统计的分词法、基于规则的分词法或者基于字标注的中文分词法当中的一种多个多种,将目标文本分为不同的分词集。
例如:X表示有待分词的句子,Yn表示该句子的一个分词方案。
X=“我喜欢玩游戏”
Y1={“我喜”,“欢”,“玩”,“游戏”}
Y2={“我喜”,“欢玩”,“游戏”}
Y3={“我”,“喜欢”,“玩游戏”}
S1212、基于相邻两个分词元素之间的组合概率,计算所述各分词集对应的分词概率;
假设各分词元素的准确度仅仅与其相邻的上一个分词元素有关,则,根据分词元素与上一个分词元素之间的组合概率,就能够计算得到不同分词集的分词概率。
计算组合概率时,需要计算各个分词元素的出现次数,出现次数是指在预设的语料数据库中或者词语数据库中,分词元素出现的次数,例如,“我”这个分词元素在语料数据库出现次数为9568次,“我喜”这个分词元素出现的次数为3次,“欢玩”这个分词元素出现的次数为2次。
然后,根据分词元素与上一个分词元素之间的次数比计算相邻两个分词元素之间的组合概率。如,p(玩|欢)=“玩”出现次数/“欢”出现的次数。
最后,将整个分类集中的组合概率进行求积运算得到各个分类集分词概率。例如:
P(Y1)=p(我喜)*p(欢|我喜)*p(玩|欢)*p(游戏|玩)
P(Y2)=p(我喜)*p(欢玩|我喜)*p(游戏|欢玩)
P(Y3)=p(我)*p(喜欢|我)*p(玩游戏|喜欢)
三个概率中,“喜欢”在语料数据库中属于常见词汇,而“欢玩”则很少见到,因此,p(喜欢|我)的概率数值较大,由此,能够得出分类越合理的分词集得到的分词概率数值越大。需要指出的是在一些实施方式中,定义各个分词集中第一个分词元素的概率值为1。
S1213、基于预设的词汇表,将所述各分词集中分词概率最大的分词集进行映射转化生成所述至少一个特征词向量。
计算出各个分类集中的分次概率后,选择其中分次概率数值最大的一个分词集作为目标文本的最终分词集。
确定最终分词集后,需要将分词集转换为实数,转换的方式为通过预设的词汇表进行转换。词汇表中记载各个字、词或者常用短语映射实数的数值,该实数即为特征词向量。因此,通过词汇表能够将各个分词元素的特征词向量。
通过对分词集的分词准确率进行判断,能够提高分词的合理度和准确度。进而提高了后续模型的分类准确度。
在一些实施方式中,对目标文本的分类是通过对目标文本的特征数组数据进行分类。请参阅图4,图4为本实施例根据特征数据对目标文本进行分类的流程示意图。
如图4所示,S1300包括:
S1311、将所述至少一个特征词向量组装成目标特征数组;
将目标文本转化后的特征词向量,按目标文本中文字排列顺序进行依次排列,形成多维的目标特征数组。
S1312、将所述目标特征数组输入至预设的文本分类模型中,其中,所述文本分类模型为预先训练至收敛状态,用于对文本信息进行多级分类的分类模型;
将目标特征数组输入至文本分类模型中进行特征分类。具体地,文本分类模型为训练至收敛状态的FastText模型。FastText模型的输出层输出的目标文本的分类结果有多个,多个分类结果之间具有层级关系,基于该层级关系将分类集中的多个分类结果之间进行层级连接。例如,目标文本中记录的信息为用户对其名称的陈述“我叫张XX,曾用名为张X蛋”,进行分类后得到的分类结果包括:基本信息、姓名和曾用名三个分类结果,根据层级关系,基本信息为父级节点位于第一层级,姓名为父级节点的子节点位于第二层级,曾用名为父级节点的子节点位于第二层级,三个节点组成一个属性分叉的拓扑结构。
FastText模型在进行训练之前,通过现有的知识图谱构建一个或者多个树形拓扑结构的分类类别,对于训练数据进行多级标注并写明标注之间的层级连接关系,通过反复迭代的训练,训练至收敛状态的FastText模型能够快速准确地将输入文本进行多级分类。
S1313、读取所述文本分类模型输出的所述分类集。
文本分类模型根据输入的目标特征数组输出分类集,分类集中的多个分类结果以及分类结果之间的层级关系。
通过文本分类模型能够得到目标文本的多个分类文本,为进行准确的文字匹配提供了支撑。
在一些实施方式中,为提高匹配的效率,当目标文本的数据量较大时,需要将组装的全量特征数组进行分割,然后使用分割后的局部特征数据进行分类。请参阅图5,图5为本实施例目标特征数组的一种生成示意图。
如图5所示,S1311包括:
S1321、将所述至少一个特征词向量组装成全量特征数组;
将目标文本转化后的特征词向量,按目标文本中文字排列顺序进行依次排列,形成多维的全量特征数组。
S1322、根据预设的等分阈值将所述全量特征数组进行切分形成多个局部特征数组;
本实施方式中设置等分阈值,例如,当等分阈值为4时,就是将全量特征数组进行切分形成4个局部特征数组。如,当全量特征数组为一个128维的数组时,进行4等分后得到4个32维的局部特征数组。
等分阈值的数值不局限4等分,根据具体应用场景的不同,在一些实施方式中等分阈值能够为(不限于):2等分、3等分、5等分或者更多。
在一些实施方式中,等分阈值为一个动态阈值,等分阈值的取值与全量特征数组的维度成正比。
S1323、选择所述多个局部特征数组中的一个局部特征数组为所述目标特征数组。
生成多个局部特征数组后,在多个局部特征数组中随机抽取一个局部特征数组作为目标特征数组。
在一些实施方式中,通过对目标用户的会话行为进行统计,确定目标用户的习惯是将讲话重点内容放在目标文本的那个位置,例如,在讲话的中间说重点或者语句的最后才讲终端。然后,根据目标用户的讲话特点,有目的的选择包括目标用户讲话重点的局部特征数组作为目标特征数组。
通过对全量特征数组进行分割,实现了目标文本与剧本文档之间的模糊匹配,同时,由于运算量的减少,提高了匹配的效率。
在一些实施方式中,剧本文档包括多条对话文本,多个对话文本呈层级分布,各对话文本均对应设置有标签文件,各标签文件也成层级关系分布。在进行匹配时,将分类集与标签文件进行匹配。请参阅图6,图6为本实施例通过标签文件进行匹配的流程示意图。
如图6所示,S1400包括:
S1411、根据分类集中的层级关系依次查找各分类结果对应的标签文件;
本实施方式中,剧本文档包括多条对话文本,多个对话文本呈层级分布,各对话文本均对应设置有标签文件,各标签文件也成层级关系分布。请参阅图7,图7为本实施例剧本文档的一种分布示意图。如图7所示,“系统画像”为根节点,“基本资料”作为根节点的一级子节点,“姓名”,“性别”“年龄”作为一级子节点的子节点定义为二级子节点,“姓氏”,“昵称”等等标有序号“3”的节点为三级子节点,“琐碎”,“想改吗”等标有需要“4”的节点为四级子节点。其中,位于每个对话文本前列的字段为标签文件,例如:“姓名”,而跟在标签文件后面的文字字段,则为对话文本。
进行查找时,以分类集中层级最高的根节点的内容为检索条件,在剧本文档中查找与其对应的标签文件,然后再以分类集中根节点中的下一级分类结果为检索条件,在已经确定的标签文件下属的标签文件中查找与其对应的标签文件,以此方式层层查找,直至分类集中的位于叶子结点位置处的分类结果也确定对应的标签文件时止。当叶子节点位置处的分类结果有多个时,需要进行依次遍历查找确定。
S1412、确定所述分类集中位于叶子节点位置的分类结果对应的标签文件的对话文本为所述回复文本。
确定分类集中位于叶子节点位置的分类结果对应的标签文件的对话文本为回复文本。例如,当叶子结点位置处的分类结果对应的标签文件为“姓名”时,则确定“你叫什么名字”为回复文本。
通过标签文件能够快速确定回复信息,提高了确定回复信息的效率。
在一些实施方式中,根据回复文本和分词集生成用户画像。请参阅图8,图8为本实施例用户画像的生成示意图。
如图8所示,S1400之后包括:
S1421、根据所述回复文本和分词集生成目标用户的用户标签;
当终端通过剧本文档中预设的对话文本进行提问时,分词集中的的分类结果中存在回答提问的回答信息,该回答信息记录在分类集中位于叶子结点位置处的分类结果中,因此,将分类集中位于叶子结点位置处的分类结果作为一个或者多个用户标签。
S1422、将所述用户标签写入到所述目标用户的用户画像文本中。
将生成的用户标签写入到目标用户的用户画像文本中,通过遍历剧本文档中的对话文本并生成相应的用户标签后,能够得到一个完整的用户画像。其中,用户画像文本为记录用户用户标签的文件。
具体请参阅图9,图9为本实施例文本匹配装置基本结构示意图。
如图9所示,一种文本匹配装置,包括:获取模块2100、分词模块2200、处理模块2300和执行模块2400。其中,获取模块2100用于获取待处理的目标文本;分词模块2200用于根据预设的分词规则对所述目标文本进行分词处理生成至少一个特征词向量;处理模块2300用于基于所述至少一个特征词向量,对所述目标文本进行分类生成分类集,其中,所述分类集包括至少两个成层级关系分布的分类结果;执行模块2400用于根据所述分类集在预设的剧本文档中匹配与所述目标文本对应的回复文本。
在一些实施方式中,所述文本匹配装置还包括:第一获取子模块、第一处理子模块和第一执行子模块。其中,第一获取子模块用于获取目标用户的用户语音;第一处理子模块用于将所述用户语音进行语音转换处理生成目标字段;第一执行子模块用于根据所述目标字段生成所述目标文本。
在一些实施方式中,所述文本匹配装置还包括:第一分词子模块、第二处理子模块和第二执行子模块。其中,第一分词子模块用于将所述目标文本进行切分生成多个分词集,其中,各分词集中均包括至少一个分词元素;第二处理子模块用于基于相邻两个分词元素之间的组合概率,计算所述各分词集对应的分词概率;第二执行子模块用于基于预设的词汇表,将所述各分词集中分词概率最大的分词集进行映射转化生成所述至少一个特征词向量。
在一些实施方式中,所述文本匹配装置还包括:第一生成子模块、第三处理子模块和第三执行子模块。其中,第一生成子模块用于将所述至少一个特征词向量组装成目标特征数组;第三处理子模块用于将所述目标特征数组输入至预设的文本分类模型中,其中,所述文本分类模型为预先训练至收敛状态,用于对文本信息进行多级分类的分类模型;第三执行子模块用于读取所述文本分类模型输出的所述分类集。
在一些实施方式中,所述文本匹配装置还包括:第二生成子模块、第四处理子模块和第四执行子模块。其中,第二生成子模块用于将所述至少一个特征词向量组装成全量特征数组;第四处理子模块用于根据预设的等分阈值将所述全量特征数组进行切分形成多个局部特征数组;第四执行子模块用于选择所述多个局部特征数组中的一个局部特征数组为所述目标特征数组。
在一些实施方式中,所述剧本文档包括多条对话文本,各对话文本均对应设置有标签文件,各标签文件成层级关系分布,所述文本匹配装置还包括:第五处理子模块和第五执行子模块。其中,第五处理子模块用于根据分类集中的层级关系依次查找各分类结果对应的标签文件;第五执行子模块用于确定所述分类集中位于叶子节点位置的分类结果对应的标签文件的对话文本为所述回复文本。
在一些实施方式中,所述文本匹配装置还包括:第六处理子模块和第六执行子模块。其中,第六处理子模块用于根据所述回复文本和分词集生成目标用户的用户标签;第六执行子模块用于将所述用户标签写入到所述目标用户的用户画像文本中。
在一个可选实施例中提供了一种电子设备,如图10所示,图10所示的电子设备6000包括:处理器6001和存储器6003。其中,处理器6001和存储器6003相连,如通过总线6002相连。可选地,电子设备6000还可以包括收发器6004。需要说明的是,实际应用中收发器6004不限于一个,该电子设备6000的结构并不构成对本申请实施例的限定。
处理器6001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器6001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线6002可包括一通路,在上述组件之间传送信息。总线6002可以是PCI总线或EISA总线等。总线6002可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器6003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器6003用于存储执行本申请方案的应用程序代码,并由处理器6001来控制执行。处理器6001用于执行存储器6003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
本申请的又一实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,在本发明实施例中,获取当前用户界面展示的信息,当识别到信息中存在实体时,获取实体对应的实体信息,并建立实体信息与实体的关联关系,以及标记实体,并向用户展示标记信息;其中,所述标记信息包括标记所述实体后的信息。这样,在用户浏览信息时,可以自动对信息中的实体进行识别并标记,使得用户能够清楚地观看到信息中的实体,提升了用户的观看体验。
同时在用户无感知的情况下,还可以获取该实体对应的实体信息,这样,当用户点击了任一实体时,即可为用户展示该实体对应的实体信息,不需要用户通过繁琐的过程自行检索,提升了用户的检索体验,从而提升了用户的整体阅读体验。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种文本匹配方法,其特征在于,包括:
获取待处理的目标文本;
根据预设的分词规则对所述目标文本进行分词处理生成至少一个特征词向量;
基于所述至少一个特征词向量,对所述目标文本进行分类生成分类集,其中,所述分类集包括至少两个成层级关系分布的分类结果;
根据所述分类集在预设的剧本文档中匹配与所述目标文本对应的回复文本;
所述对所述目标文本进行分类生成分类集包括:
将所述至少一个特征词向量组装成目标特征数组;
将所述目标特征数组输入至预设的文本分类模型中,其中,所述文本分类模型为预先训练至收敛状态,用于对文本信息进行多级分类的分类模型;
读取所述文本分类模型输出的所述分类集;
所述将所述至少一个特征词向量组装成目标特征数组包括:
将所述至少一个特征词向量组装成全量特征数组;
根据预设的等分阈值将所述全量特征数组进行切分形成多个局部特征数组;
选择所述多个局部特征数组中的一个局部特征数组为所述目标特征数组。
2.根据权利要求1所述的文本匹配方法,其特征在于,所述获取待处理的目标文本包括:
获取目标用户的用户语音;
将所述用户语音进行语音转换处理生成目标字段;
根据所述目标字段生成所述目标文本。
3.根据权利要求1所述的文本匹配方法,其特征在于,所述根据预设的分词规则对所述目标文本进行分词处理生成至少一个特征词向量包括:
将所述目标文本进行切分生成多个分词集,其中,各分词集中均包括至少一个分词元素;
基于相邻两个分词元素之间的组合概率,计算所述各分词集对应的分词概率;
基于预设的词汇表,将所述各分词集中分词概率最大的分词集进行映射转化生成所述至少一个特征词向量。
4.根据权利要求1所述的文本匹配方法,其特征在于,所述剧本文档包括多条对话文本,各对话文本均对应设置有标签文件,各标签文件成层级关系分布,所述根据所述分类集在预设的剧本文档中匹配与所述目标文本对应的回复文本包括:
根据分类集中的层级关系依次查找各分类结果对应的标签文件;
确定所述分类集中位于叶子节点位置的分类结果对应的标签文件的对话文本为所述回复文本。
5.根据权利要求1所述的文本匹配方法,其特征在于,所述根据所述分类集在预设的剧本文档中匹配与所述目标文本对应的回复文本之后,包括:
根据所述回复文本和分词集生成目标用户的用户标签;
将所述用户标签写入到所述目标用户的用户画像文本中。
6.一种文本匹配装置,其特征在于,包括:
获取模块,用于获取待处理的目标文本;
分词模块,用于根据预设的分词规则对所述目标文本进行分词处理生成至少一个特征词向量;
处理模块,用于基于所述至少一个特征词向量,对所述目标文本进行分类生成分类集,其中,所述分类集包括至少两个成层级关系分布的分类结果;
执行模块,用于根据所述分类集在预设的剧本文档中匹配与所述目标文本对应的回复文本;
所述文本匹配装置还包括:
第一生成子模块,用于将所述至少一个特征词向量组装成目标特征数组;
第三处理子模块,用于将所述目标特征数组输入至预设的文本分类模型中,其中,所述文本分类模型为预先训练至收敛状态,用于对文本信息进行多级分类的分类模型;
第三执行子模块,用于读取所述文本分类模型输出的所述分类集;
所述文本匹配装置还包括:
第二生成子模块,用于将所述至少一个特征词向量组装成全量特征数组;
第四处理子模块,用于根据预设的等分阈值将所述全量特征数组进行切分形成多个局部特征数组;
第四执行子模块,用于选择所述多个局部特征数组中的一个局部特征数组为所述目标特征数组。
7.根据权利要求6所述的文本匹配装置,其特征在于,所述文本匹配装置还包括:
第一获取子模块,用于获取目标用户的用户语音;
第一处理子模块,用于将所述用户语音进行语音转换处理生成目标字段;
第一执行子模块,用于根据所述目标字段生成所述目标文本。
8.根据权利要求6所述的文本匹配装置,其特征在于,所述文本匹配装置还包括:
第一分词子模块,用于将所述目标文本进行切分生成多个分词集,其中,各分词集中均包括至少一个分词元素;
第二处理子模块,用于基于相邻两个分词元素之间的组合概率,计算所述各分词集对应的分词概率;
第二执行子模块,用于基于预设的词汇表,将所述各分词集中分词概率最大的分词集进行映射转化生成所述至少一个特征词向量。
9.根据权利要求6所述的文本匹配装置,其特征在于,所述剧本文档包括多条对话文本,各对话文本均对应设置有标签文件,各标签文件成层级关系分布,所述文本匹配装置还包括:
第五处理子模块,用于根据分类集中的层级关系依次查找各分类结果对应的标签文件;
第五执行子模块,用于确定所述分类集中位于叶子节点位置的分类结果对应的标签文件的对话文本为所述回复文本。
10.根据权利要求6所述的文本匹配装置,其特征在于,所述文本匹配装置还包括:
第六处理子模块,用于根据所述回复文本和分词集生成目标用户的用户标签;
第六执行子模块,用于将所述用户标签写入到所述目标用户的用户画像文本中。
11.一种电子设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至5中任一项权利要求所述文本匹配方法的步骤。
12.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至5中任一项权利要求所述文本匹配方法的步骤。
CN201911381896.1A 2019-12-27 2019-12-27 文本匹配方法及装置 Active CN111143515B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911381896.1A CN111143515B (zh) 2019-12-27 2019-12-27 文本匹配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911381896.1A CN111143515B (zh) 2019-12-27 2019-12-27 文本匹配方法及装置

Publications (2)

Publication Number Publication Date
CN111143515A CN111143515A (zh) 2020-05-12
CN111143515B true CN111143515B (zh) 2023-04-18

Family

ID=70521273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911381896.1A Active CN111143515B (zh) 2019-12-27 2019-12-27 文本匹配方法及装置

Country Status (1)

Country Link
CN (1) CN111143515B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401063B (zh) * 2020-06-03 2020-09-11 腾讯科技(深圳)有限公司 一种基于多池化网络的文本处理方法、装置和相关设备
CN113222455A (zh) * 2021-05-28 2021-08-06 西安热工研究院有限公司 一种基于模块化分解与匹配的发电机组参数名称匹配方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156163A (zh) * 2015-04-15 2016-11-23 株式会社日立制作所 文本分类方法以及装置
CN110413777A (zh) * 2019-07-08 2019-11-05 上海鸿翼软件技术股份有限公司 一种对长文本生成特征向量实现分类的系统
CN110580335A (zh) * 2018-06-07 2019-12-17 阿里巴巴集团控股有限公司 用户意图的确定方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10789545B2 (en) * 2016-04-14 2020-09-29 Oath Inc. Method and system for distributed machine learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156163A (zh) * 2015-04-15 2016-11-23 株式会社日立制作所 文本分类方法以及装置
CN110580335A (zh) * 2018-06-07 2019-12-17 阿里巴巴集团控股有限公司 用户意图的确定方法及装置
CN110413777A (zh) * 2019-07-08 2019-11-05 上海鸿翼软件技术股份有限公司 一种对长文本生成特征向量实现分类的系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王一成等.融合多策略的中文分词算法研究.西北民族大学学报(自然科学版).2018,(第02期),全文. *

Also Published As

Publication number Publication date
CN111143515A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN108628971B (zh) 不均衡数据集的文本分类方法、文本分类器及存储介质
CN109947909B (zh) 智能客服应答方法、设备、存储介质及装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
WO2022116537A1 (zh) 一种资讯推荐方法、装置、电子设备和存储介质
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
CN111695352A (zh) 基于语义分析的评分方法、装置、终端设备及存储介质
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN111046133A (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
CN111930792B (zh) 数据资源的标注方法、装置、存储介质及电子设备
CN113342958B (zh) 问答匹配方法、文本匹配模型的训练方法和相关设备
CN111078835A (zh) 简历评估方法、装置、计算机设备及存储介质
CN111143515B (zh) 文本匹配方法及装置
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN111414471B (zh) 用于输出信息的方法和装置
CN114298157A (zh) 基于舆情大数据分析的短文本情感分类方法、介质及系统
CN111782793A (zh) 智能客服处理方法和系统及设备
CN113806588A (zh) 搜索视频的方法和装置
CN111310065A (zh) 一种社交推荐方法、装置、服务器及存储介质
CN115392235A (zh) 字符匹配方法、装置、电子设备及可读存储介质
CN112988784B (zh) 数据查询方法、查询语句生成方法及其装置
CN117131155A (zh) 多类目识别方法、装置、电子设备及储存介质
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN111625722B (zh) 一种基于深度学习的人才推荐方法、系统及存储介质
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200727

Address after: 518057 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Applicant after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Address before: 100029, Beijing, Chaoyang District new East Street, building No. 2, -3 to 25, 101, 8, 804 rooms

Applicant before: Tricorn (Beijing) Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant