CN110163281A - 语句分类模型训练方法和装置 - Google Patents
语句分类模型训练方法和装置 Download PDFInfo
- Publication number
- CN110163281A CN110163281A CN201910420398.7A CN201910420398A CN110163281A CN 110163281 A CN110163281 A CN 110163281A CN 201910420398 A CN201910420398 A CN 201910420398A CN 110163281 A CN110163281 A CN 110163281A
- Authority
- CN
- China
- Prior art keywords
- search
- statement
- field
- answer
- search statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 164
- 238000013145 classification model Methods 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012216 screening Methods 0.000 claims abstract description 64
- 238000003860 storage Methods 0.000 claims abstract description 22
- 238000001914 filtration Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 20
- 239000000203 mixture Substances 0.000 claims description 17
- 238000012937 correction Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 8
- 230000001915 proofreading effect Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 21
- 210000003739 neck Anatomy 0.000 description 13
- 230000008569 process Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 241000288027 Chrysolophus pictus Species 0.000 description 5
- 238000009412 basement excavation Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 description 1
- 241000628997 Flos Species 0.000 description 1
- 241001515806 Stictis Species 0.000 description 1
- 101150041570 TOP1 gene Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- JLQUFIHWVLZVTJ-UHFFFAOYSA-N carbosulfan Chemical compound CCCCN(CCCC)SN(C)C(=O)OC1=CC=CC2=C1OC(C)(C)C2 JLQUFIHWVLZVTJ-UHFFFAOYSA-N 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种语句分类模型训练方法、装置、计算机可读存储介质和计算机设备,该方法包括:获取搜索语句集合,搜索语句集合包括多个待回复的搜索语句;根据预设筛选规则从搜索语句集合中筛选得到候选搜索语句集合;将候选搜索语句集合输入至原始语句分类模型中,得到关注领域对应的领域搜索语句;从预设搜索语句库中查找得到与领域搜索语句匹配的目标搜索语句;将目标搜索语句对应的候选答案作为领域搜索语句对应的领域答案,得到关注领域对应的领域问答对;将领域问答对对应的领域搜索语句输入至原始语句分类模型进行训练,直至满足收敛条件,得到目标语句分类模型。本申请提供的方案能够提高搜索语句回复准确率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种语句分类模型训练方法、装置、计算机可读存储介质和计算机设备。
背景技术
随着计算机技术的发展,出现了人机问答技术,通过人机问答技术代替或者替换人工来问答回复用户的咨询等。然而,目前的人机问答模型的训练数据问答对都是需要从网页上大量爬取的问答对,然后再作为人机问答模型的训练数据进行训练,得到已训练好的人机问答模型,但是由于从网页上爬取的问答对存在很大的质量问题,容易导致人机问答模型在回复搜索语句时的准确率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高搜索语句的回复准确率的语句分类模型训练方法、装置、计算机可读存储介质。
一种语句分类模型训练方法,包括:
获取搜索语句集合,搜索语句集合包括多个待回复的搜索语句;
根据预设筛选规则从搜索语句集合中筛选得到候选搜索语句集合;
将候选搜索语句集合输入至原始语句分类模型中,得到关注领域对应的领域搜索语句;
从预设搜索语句库中查找得到与领域搜索语句匹配的目标搜索语句;
将目标搜索语句对应的候选答案作为领域搜索语句对应的领域答案,得到关注领域对应的领域问答对,领域问答对包括领域搜索语句和对应的领域答案;
将领域问答对对应的领域搜索语句输入至原始语句分类模型进行训练,直至满足收敛条件,得到目标语句分类模型。
一种语句分类模型训练装置,该装置包括:
搜索语句集合获取模块,用于获取搜索语句集合,搜索语句集合包括多个待回复的搜索语句;
搜索语句集合筛选模块,用于根据预设筛选规则从搜索语句集合中筛选得到候选搜索语句集合;
语句分类模型处理模块,用于将候选搜索语句集合输入至原始语句分类模型中,得到关注领域对应的领域搜索语句;
搜索语句库查找模块,用于从预设搜索语句库中查找得到与领域搜索语句匹配的目标搜索语句;
领域问答对生成模块,用于将目标搜索语句对应的候选答案作为领域搜索语句对应的领域答案,得到关注领域对应的领域问答对,领域问答对包括领域搜索语句和对应的领域答案;
语句分类模型训练模块,用于将领域问答对对应的领域搜索语句输入至原始语句分类模型进行训练,直至满足收敛条件,得到目标语句分类模型。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行所述程序时实现以下步骤:
获取搜索语句集合,搜索语句集合包括多个待回复的搜索语句;
根据预设筛选规则从搜索语句集合中筛选得到候选搜索语句集合;
将候选搜索语句集合输入至原始语句分类模型中,得到关注领域对应的领域搜索语句;
从预设搜索语句库中查找得到与领域搜索语句匹配的目标搜索语句;
将目标搜索语句对应的候选答案作为领域搜索语句对应的领域答案,得到关注领域对应的领域问答对,领域问答对包括领域搜索语句和对应的领域答案;
将领域问答对对应的领域搜索语句输入至原始语句分类模型进行训练,直至满足收敛条件,得到目标语句分类模型。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取搜索语句集合,搜索语句集合包括多个待回复的搜索语句;
根据预设筛选规则从搜索语句集合中筛选得到候选搜索语句集合;
将候选搜索语句集合输入至原始语句分类模型中,得到关注领域对应的领域搜索语句;
从预设搜索语句库中查找得到与领域搜索语句匹配的目标搜索语句;
将目标搜索语句对应的候选答案作为领域搜索语句对应的领域答案,得到关注领域对应的领域问答对,领域问答对包括领域搜索语句和对应的领域答案;
将领域问答对对应的领域搜索语句输入至原始语句分类模型进行训练,直至满足收敛条件,得到目标语句分类模型。
上述语句分类模型训练方法、装置、计算机可读存储介质和计算机设备,根据预设筛选规则从搜索语句集合中筛选出候选搜索语句集合,预设筛选规则可自定义,可将搜索语句集合中非支持搜索语句和无明确意图的搜索语句都筛选出来,组成候选搜索语句集合,将候选搜索语句集合输入至原始语句分类模型中,得到关注领域对应的领域搜索语句。通过原始语句分类模型对候选搜索语句集合进行领域分类,能够获得各个领域对应的领域搜索语句,再从预设搜索语句库中查找与领域搜索语句匹配的目标搜索语句,将目标搜索语句对应的答案作为领域搜索语句的答案,得到领域问答对。进一步地,将领域问答对的领域搜索语句输入至原始语句分类模型进行训练,直至满足收敛条件,得到目标语句分类模型。
在得到语句分类模型输出的领域搜索语句后,从预设搜索语句库中获取对应的答案,不仅无需大量人工编写领域问答对,减少了人工成本,而且还可从预设搜索语句库中直接得到对应的答案,提高了搜索语句的回复效率。进一步地,预设筛选规则还可将搜索语句集合中非支持搜索语句和无明确意图的搜索语句都筛选出来,而在现有问答产品中非支持搜索语句和无明确意图的搜索语句都无法得到回复,因此通过将非支持搜索语句和无明确意图的搜索语句加入到语句分类模型中训练,可以得到非支持搜索语句和无明确意图的搜索语句所属的关注领域,进而从预设搜索语句库中获得相应的答案,因此不管搜索语句是否是非支持搜索语句或者是无明确意图的搜索语句或者是常规搜索语句,都能得到相应的回复,从而提高了搜索语句的回复准确率。
附图说明
图1为一个实施例中语句分类模型训练方法的应用环境图;
图2为一个实施例中语句分类模型训练方法的流程示意图;
图3为一个实施例中搜索语句集合获取步骤的流程示意图;
图4为一个实施例中搜索语句集合筛选步骤的流程示意图;
图5为另一个实施例中搜索语句集合筛选步骤的流程示意图;
图6为又一个实施例中搜索语句集合筛选步骤的流程示意图;
图7为一个实施例中语义分类器的训练步骤的流程示意图;
图8为一个实施例中预设搜索语句库查找步骤的流程示意图;
图9为一个实施例中领域问答对生成步骤的流程示意图;
图10为一个实施例中语句分类模型训练步骤的流程示意图;
图11为另一个实施例中语句分类模型训练方法的流程示意图;
图12为又一个实施例中语句分类模型训练方法的流程示意图;
图12A为一个实施例中待搜索语句问答产品的界面示意图;
图13为一个实施例中语句分类模型训练方法的原理示意图;
图14为一个实施例中语句分类模型训练装置的结构框图;
图15为一个实施例中搜索语句集合获取模块的结构框图;
图16为一个实施例中搜索语句集合筛选模块的结构框图;
图17为另一个实施例中搜索语句集合筛选模块的结构框图;
图18为又一个实施例中搜索语句集合筛选模块的结构框图;
图19为一个实施例中搜索语句库查找模块的结构框图;
图20为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中语句分类模型训练方法的应用环境图。参照图1,该语句分类模型训练方法应用于语句分类模型训练系统。该语句分类模型训练系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
具体地,终端110获取搜索语句集合,该搜索语句集合中包括多个待回复的搜索语句,将搜索语句集合发送至服务器120中,服务器120根据预设筛选规则从搜索语句集合中筛选得到候选搜索语句集合,将候选搜索语句集合输入至原始语句分类模型中,得到关注领域对应的领域搜索语句,从预设搜索语句库中查找得到与领域搜索语句匹配的目标搜索语句,将目标搜索语句对应的候选答案作为领域搜索语句对应的领域答案,得到关注领域对应的领域问答对,领域问答对包括领域搜索语句和对应的领域答案,将领域问答对输入至原始语句分类模型进行训练,直至满足收敛条件,得到目标语句分类模型。进一步地,服务器120可以将目标语句分类模型发送至终端110,终端110可通过目标语句分类模型对待回复的搜索语句进行处理。
如图2所示,在一个实施例中,提供了一种语句分类模型训练方法。本实施例主要以该方法应用于上述图1中的终端110或服务器120来举例说明。参照图2,该语句分类模型训练方法具体包括如下步骤:
步骤202,获取搜索语句集合,搜索语句集合包括多个待回复的搜索语句。
其中,待回复的搜索语句是指等待回复的搜索语句,待回复的搜索语句可以是无明确意图的搜索语句或者还可以是配置非支持的搜索语句或者还可以是现有的人机问答产品无法回复的搜索语句等等,所谓无明确意图的搜索语句是指该搜索语句没有明确的目的或者打算的搜索语句,属于偏口语化、闲聊的搜索语句,例如:“哇今天我超级无聊的”、“我现在超级饿的”等等。而配置非支持的搜索语句是指由于场景或者实际需求对配置进行设置导致无法支持的搜素语句,例如车载端配置只能支持天气领域的搜索语句或者音乐领域的搜索语句,那么关于视频领域的搜索语句都属于配置非支持的搜索语句。
具体地,终端或者服务器可以实时采集待回复的搜索语句,将采集到的搜索语句组成搜索语句集合,还可以通过线上日志采集得到待回复的搜索语句或者还可以是通过离线日志采集得到待回复的搜索语句。其中,线上日志是在线用来记录与使用产品情况相关的数据,线上日志中记载了该产品在线时产生的待回复的搜索语句。而离线日志与线上日志相对应,离线日志为该产品离线状态记录与产品情况相关的数据,离线日志记载了该产品离线时产生的待回复的搜索语句。
步骤204,根据预设筛选规则从搜索语句集合中筛选得到候选搜索语句集合。
其中,由于搜索语句集合中的搜索语句数量较为庞大,因此可设置预设筛选规则来筛选搜索语句集合,得到候选搜索语句集合。预设筛选规则可自定义,在一个实施例中,自定义可以是提前设置用来筛选搜索语句集合得到待关注实体对应的候选搜索语句集合的规则,也就是说候选搜索语句集合中的候选搜索语句都是待关注实体对应的搜索语句,实体用来描述的现实世界中的对象或概念,待关注实体是根据业务需求或者实际应用场景从各个实体中确定得到,待关注实体的数量具体可根据实际需要进行设置。其中,待关注实体可以为:“成都”,那么候选搜索语句可以是与“成都”有关的搜索语句,即可以将所有包括“成都”的搜索语句都作为候选搜索语句。
在另一个实施例中,预设筛选规则自定义还可以是将搜索语句集合中所有非支持搜索语句组成候选搜索语句集合,还可以是将搜索语句集合中所有语义非完整搜索语句过滤掉,将搜索语句集合中过滤后的搜索语句组成候选搜索语句集合等等。其中,所谓非支持搜索语句是指由于产品不支持导致无法得到回复的搜索语句,非支持搜索语句包括但不限于配置非支持的搜索语句、无明确意图的搜索语句等等。而配置非支持的搜索语句是指由于场景或者实际需求对配置进行设置导致无法支持的搜索语句,例如车载端配置只能支持天气领域的搜索语句或者音乐领域的搜索语句,那么关于视频领域的搜索语句都属于配置非支持的搜索语句。无明确意图的搜索语句是指该搜索语句没有明确的目的或者打算的搜索语句,属于偏口语化、闲聊的搜索语句,例如:“哇今天我超级无聊的”、“我现在超级饿的”等等。
其中,语义非完整搜索语句是指搜索语句集合语义表达不完整的搜索语句,语义是指隐藏在句法结构后,由词语的语义范畴所建立起来的关系。由于搜索语句集合中包括很多语义表达非完整的搜索语句,将语义非完整这部分的搜索语句进行过滤,将搜索语句集合中过滤得到的搜索语句组成候选搜索语句集合。具体可以是借助训练好的语义分类器对搜索语句集合中的各个搜索语句的语义进行分类,得到语义非完整搜索语句,其中语义分类器可以是用来对搜索语句的语义进行分类的分类模型。例如:“成都最近才”这个搜索语句就属于语义非完整搜索语句。
其中,预设筛选规则可以包括一个预设筛选规则还可以包括多个预设筛选规则,可通过多个预设筛选规则同时对搜索语句集合进行筛选,将各个预设筛选规则筛选得到的搜索语句组成候选搜索语句集合。还可以是通过各个预设筛选规则按预设顺序依次对搜索语句集合进行筛选,得到候选搜索语句集合。
在一个实施例中,预设筛选规则为将搜索语句集合中待关注实体对应的非支持搜索语句组和搜索语句集合中待关注实体对应的语义表达完整搜索语句组成候选搜索语句集合。具体地,获取待关注实体,再根据待关注实体获取搜索语句集合中非支持搜索语句,非支持搜索语句包括无明确意图的搜索语句和配置非支持搜索语句,将获取到的非支持搜索语句组成第一候选子搜索语句集合。同时,借助已训练好的语义分类器对搜索语句集合中各个搜索语句的语义进行分类,得到待关注实体对应的语义非完整搜索语句,将搜索语句集合中的语义非完整搜索语句进行过滤,将过滤后得到的搜索语句组成第二候选子搜索语句集合,将第一候选子搜索语句集合和第二候选子搜索语句集合组成候选搜索语句集合。
步骤206,将候选搜索语句集合输入至原始语句分类模型中,得到关注领域对应的领域搜索语句。
其中,语句分类模型是用来对候选搜索语句集合中的候选搜索语句进行领域分类的模型,这里的原始语句分类模型是指未进行训练的初始语句分类模型,领域搜索语句是指特定范围内有关的候选搜索语句,领域可以是地理领域、天气领域、音视频领域、古诗文领域等等。关注领域具体可根据实际应用场景或者实际业务需求从多个领域中确定得到关注领域,例如将领域中的地理领域确定为关注领域,那么关注领域对应的领域搜索语句就是将候选搜索语句集合中所有地理领域相关的候选搜索语句都作为关注领域对应的领域搜索语句。
在一个实施例中,由于候选搜索语句集合包括待关注实体对应的候选搜索语句,因此关注领域对应的领域搜索语句为关注领域的待关注实体对应的候选搜索语句。具体地,将候选搜索语句集合作为原始语句分类模型的输入数据,通过原始语句分类模型对候选搜索语句集合中的各个候选搜索语句所在的领域进行分类,将同一领域的候选搜索语句归为一类,得到关注领域对应的领域搜索语句。
例如,关注领域为地理领域,候选搜索语句集合中都是所有包含“成都”两个字的候选搜索语句,如“成都周边有什么好玩的景点推荐”、“成都到绵阳到底有多少公里呢”、“成都你我他很好啊”“成都这个到底好不好听能不能有人告诉我”……将候选搜索语句集合输入至原始语句分类模型中,得到地理领域对应的领域搜索语句为“成都周边有什么好玩的景点推荐”、“成都到绵阳到底有多少公里呢”。
在一个实施例中,未指名待关注实体,候选搜索语句集合中都是符合预设筛选规则的候选搜索语句组成的,因此,关注领域对应的领域搜索语句为关注领域对应的所有候选搜索语句。具体地,将候选搜索语句集合作为原始语句分类模型的输入数据,通过原始语句分类模型对候选搜索语句集合中的各个候选搜索语句所在的领域进行分类,将同一领域的候选搜索语句归为一类,得到关注领域对应的领域搜索语句。
例如,关注领域为地理领域,候选搜索语句集合为:“成都周边有什么好玩的景点推荐”、“成都到绵阳到底有多少公里呢”、“深圳有什么好玩的景点推荐”、“深圳最近天气如何呢”、“北京离上海到底有多少公里呢”……,将候选搜索语句集合输入至原始语句分类模型中,得到地理领域对应的领域搜索语句为“成都周边有什么好玩的景点推荐”、“成都到绵阳到底有多少公里呢”、“深圳有什么好玩的景点推荐”、“北京离上海到底有多少公里呢”。
步骤208,从预设搜索语句库中查找得到与领域搜索语句匹配的目标搜索语句。
其中,预设搜索语句库是用来存储各个预存搜索语句的数据库,预设搜索语句库可提前设置,预设搜索语句库中的预存搜索语句可以是对网页进行海量的挖掘得到的或者还可以是现有技术所有问答产品使用的语句。具体可以是,先对网页上的搜索问答对进行挖掘,得到大量的搜索问答对,并将挖掘得到的大量搜索问答对进行存储,再从存储的搜索问答对中获取搜索问答对中的问句,将获取到的所有问句存储在预设搜索语句库中。或者还可以是获取现有技术所有问答产品使用的人机问答对,将获取到的人机问答对进行存储,再从存储的人机问答对中获取人机问答对中的问句,将获取到的所有问句存储在预设搜索语句库中。
具体地,根据关注领域对应的领域搜索语句从预设搜索语句库中查找匹配的目标搜索语句,其中查找方式可自定义,自定义查找方式可以是通过计算领域搜索语句和预设搜索语句库中各个预存搜索语句的语句相似度,根据语句相似度确定与领域搜索语句匹配的目标搜索语句。自定义查找方式还可以是借助基于Lucene(搜索引擎)的搜索服务器es(ElasticSearch)从预设搜索语句库中查找得到与领域搜索语句匹配的目标搜索语句。
在一个实施例中,从预设搜索语句库中查找与领域搜索语句匹配的目标搜索语句的查找方式为借助搜索服务器es,具体可以是搜索服务器es根据内置算法从预设搜索语句库中自动查找与领域搜索语句匹配的目标搜索语句。这里的内置算法可以是bm25算法。
在一个实施例中,从预设搜索语句库中查找与领域搜索语句匹配的目标搜索语句的查找方式为根据语句相似度确定与领域搜索语句匹配的目标搜索语句,具体可以是先计算领域搜索语句和预设搜索语句库中各个预存搜索语句之间的语句相似度,当语句相似度大于预设语句相似度时,将该语句相似度对应的预存搜索语句确定为领域搜索语句匹配的目标搜索语句。
步骤210,将目标搜索语句对应的候选答案作为领域搜索语句对应的领域答案,得到关注领域对应的领域问答对,领域问答对包括领域搜索语句和对应的领域答案。
其中,由于预设搜索语句库中的预存搜索语句是从存储的搜索问答对中获取得到的,而存储的搜索问答对可以是对网页进行大量的爬取得到的搜索问答对,在进行搜索问答对的挖掘时,是将搜索问句和对应的答案一起爬取从而组成搜索问答对。因此预设搜索语句库中的各个预存搜索语句都存在对应的候选答案。具体地,在从预设搜索语句库中查找得到与领域搜索语句匹配的目标搜索语句后,从存储搜索问答对中获取目标搜索语句对应的候选答案,将候选答案作为领域搜索语句对应的领域答案,建立领域搜索语句与对应的领域答案之间的关系,得到关注领域对应的领域问答对。
例如,关注领域为地理领域,领域搜索语句为“成都周边有什么好玩的景点推荐”,而与领域搜索语句匹配的目标搜索语句为“成都周边有什么好玩的地方呢”,在存储的搜索问答对中目标搜索语句对应的候选答案为:“成都周围的著名景点有平乐古镇,黄龙溪,金鸡谷等一系列好玩的地方,都距离成都不远,一天可以来回”,因此,将目标搜索语句对应的候选答案“成都周围的著名景点有平乐古镇,黄龙溪,金鸡谷等一系列好玩的地方,都距离成都不远,一天可以来回”作为领域搜索语句“成都周边有什么好玩的景点推荐”对应的领域答案,建立领域搜索语句“成都周边有什么好玩的景点推荐”与候选答案“成都周围的著名景点有平乐古镇,黄龙溪,金鸡谷等一系列好玩的地方,都距离成都不远,一天可以来回”之间的关系,得到地理领域对应的领域问答对。
步骤212,将领域问答对对应的领域搜索语句输入至原始语句分类模型进行训练,直至满足收敛条件,得到目标语句分类模型。
其中,语句分类模型是用来进行领域分类的模型,为了提高语句分类模型的准确率,可将领域问答对对应的领域搜索语句输入至原始语句分类模型进行训练,不断调整语句分类模型的模型参数,直至满足收敛条件,得到目标语句分类模型。其中,收敛条件可自定义,自定义可以是根据语句分类模型输出的语句分类结果和对应的领域搜索语句标签计算训练损失值,当训练损失值达到预设条件时,则认为原始语句分类模型满足收敛条件。或者自定义还可以是迭代次数的限定,当迭代次数达到预设迭代次数时,则可认为原始语句分类模型满足收敛条件等等。
具体地,在得到关注领域对应的领域问答对后,获取领域问答对中的领域搜索语句,根据领域搜索语句对应的领域答案为该领域搜索语句打上真实标签,例如若该领域搜索语句为关注领域对应的搜索语句,则打上标签1,代表正类,反之则打上标签0,代表负类。进一步地,将领域问答对对应的领域搜索语句输入至原始语句分类模型,得到输出的语句分类结果,根据语句分类结果和对应的真实标签计算训练损失值,当训练损失值达到最小时,则认为训练达到收敛条件,则可得到目标语句分类模型,若训练损失值未达到最小时,则不断调整语句分类模型的模型参数,不断进行训练,直至训练损失值达到最小,则可输出目标语句分类模型。
上述语句分类模型训练方法,根据预设筛选规则从搜索语句集合中筛选出候选搜索语句集合,预设筛选规则可自定义,可将搜索语句集合中非支持搜索语句和无明确意图的搜索语句都筛选出来,组成候选搜索语句集合,将候选搜索语句集合输入至原始语句分类模型中,得到关注领域对应的领域搜索语句。通过原始语句分类模型对候选搜索语句集合进行领域分类,能够获得各个领域对应的领域搜索语句,再从预设搜索语句库中查找与领域搜索语句匹配的目标搜索语句,将目标搜索语句对应的答案作为领域搜索语句的答案,得到领域问答对。进一步地,将领域问答对的领域搜索语句输入至原始语句分类模型进行训练,直至满足收敛条件,得到目标语句分类模型。
在得到语句分类模型输出的领域搜索语句后,从预设搜索语句库中获取对应的答案,不仅无需大量人工编写领域问答对,减少了人工成本,而且还可从预设搜索语句库中直接得到对应的答案,提高了搜索语句的回复效率。进一步地,预设筛选规则还可将搜索语句集合中非支持搜索语句和无明确意图的搜索语句都筛选出来,而在现有问答产品中非支持搜索语句和无明确意图的搜索语句都无法得到回复,因此通过将非支持搜索语句和无明确意图的搜索语句加入到语句分类模型中训练,可以得到非支持搜索语句和无明确意图的搜索语句所属的关注领域,进而从预设搜索语句库中获得相应的答案,因此不管搜索语句是否是非支持搜索语句或者是无明确意图的搜索语句或者是常规搜索语句,都能得到相应的回复,从而提高了搜索语句的回复准确率。
在一个实施例中,如图3所示,获取搜索语句集合,搜索语句集合包括多个待回复的搜索语句,包括:
步骤302,获取线上日志采集得到的待搜索内容。
其中,线上日志在线用来记录与使用产品情况相关的数据,线上日志中记载了该产品在线时产生的所有搜索内容。具体地,可预先设置采集周期,每隔一采集周期,则获取通过线上日志采集到的该采集周期内的所有内容,将采集到的所有内容作为待搜索内容。其中,通过收集在线的用户日志,该用户日志是每日都在变化的数据源,可以保证搜索语句的持续性问题和不断新增。
步骤304,从待搜索内容查找得到非支持搜索语句,将非支持搜索语句组成搜索语句集合,非支持搜索语句包括无明确意图的搜索语句和配置非支持搜索语句中的至少一种语句。
其中,非支持搜索语句是指由于产品不支持导致无法得到回复的搜索语句,非支持搜索语句包括但不限于配置非支持的搜索语句、无明确意图的搜索语句等等。这里的配置非支持的搜索语句是指由于场景或者实际需求对配置进行设置导致无法支持的搜索语句,例如车载端配置只能支持天气领域的搜索语句或者音乐领域的搜索语句,那么关于视频领域的搜索语句都属于配置非支持的搜索语句。而无明确意图的搜索语句是指该搜索语句没有明确的目的或者打算的搜索语句,属于偏口语化、闲聊的搜索语句,例如:“哇今天我超级无聊的”、“我现在超级饿的”等等。
进一步地,从待搜索内容中查找得到非支持搜索语句后,将查找得到的非支持搜索语句组成搜索语句集合,其中非支持搜索语句包括无明确意图的搜索语句和配置非支持搜索语句中的至少一种语句,即搜索语句集合可以只包括无明确意图的搜索语句、或者只包括配置非支持搜索语句、或者同时包括无明确意图的搜索语句和配置非支持搜索语句。
在一个实施例中,如图4所示,根据预设筛选规则从搜索语句集合中筛选得到候选搜索语句集合,包括:
步骤402,获取配置非支持搜索语句。
步骤404,将配置非支持搜索语句中的常规搜索语句过滤。
步骤406,将搜索语句集合中过滤后得到的搜索语句组成候选搜索语句集合。
其中,配置非支持搜索语句是指由于场景或者实际需求对配置进行设置导致无法支持的搜索语句,例如车载端配置只能支持天气领域的搜索语句或者音乐领域的搜索语句,那么关于视频领域的搜索语句都属于配置非支持的搜索语句。具体地,在获取搜索语句集合后,获取搜索语句集合中所有配置非支持搜索语句,而有些配置非支持搜索语句属于常规搜索语句,但是由于配置非支持搜索语句有些是因为场景或者实际需求对配置进行设置导致无法支持,因此需要将配置非支持搜索语句中的常规搜索语句过滤掉。这里的常规搜索语句是指搜索语句属于语义表达完整、句法结构完整、有明确意图的搜索语句,也就是说搜索语句集合中有些常规搜索语句因为场景或者实际需求对配置进行设置导致无法支持,但是抛开场景或者实际需求等配置原因,搜索语句本身是属于常规搜索语句,因此需要将这部分常规搜索语句从配置非支持搜索语句中过滤掉。
进一步地,将配置非支持搜索语句中的常规搜索语句过滤后,将搜索语句集合中过滤后得到的搜索语句组成候选搜索语句集合。其中,过滤可以是丢弃处理、剔除处理等等。
例如,搜索语句集合中的配置非支持搜索语句为:“成都最近的天气如何呢”、“成都周边有什么好玩的景点推荐”、“成都到绵阳到底有多少公里呢”、“成都你在”、“播放歌曲成都”、“成都你我他很好啊”、“成都我最近才”、“成都这个到底好不好听能不能有人告诉我”,由于“播放歌曲成都”、“成都最近的天气如何呢”因为场景或者实际需求等配置原因,导致无法支持从而得到回复,但是“播放歌曲成都”、“成都最近的天气如何呢”分别为音乐领域和天气领域能支持的常规搜索语句,因此将“播放歌曲成都”、“成都最近的天气如何呢”过滤掉,将搜索语句集合中过滤后得到的搜索语句组成候选搜索语句集合为:“成都周边有什么好玩的景点推荐”、“成都到绵阳到底有多少公里呢”、“成都你在”、“成都你我他很好啊”、“成都我最近才”、“成都这个到底好不好听能不能有人告诉我”。
在一个实施例中,如图5所示,根据预设筛选规则从搜索语句集合中筛选得到候选搜索语句集合,包括:
步骤502,将搜索语句集合输入至已训练好的语义分类器中,通过分类器对各个搜索语句的语义进行分类,得到语义非完整搜索语句,将语义非完整搜索语句过滤。
步骤504,将搜索语句集合中过滤后得到的搜索语句组成候选搜索语句集合。
其中,语义分类器可以是用来对搜索语句的语义进行分类的分类模型,得到搜索语句集合中的语义完整搜索语句和语义非完整搜索语句。所谓语义非完整搜索语句是指搜索语句集合语义表达不完整的搜索语句,语义是指隐藏在句法结构后,由词语的语义范畴所建立起来的关系。而语义完整搜索语句与语义非完整搜索语句是相对概念,是指搜索语句集合中语义表达完整搜索语句,语义完整搜索语句的句法结构、语义结构非常完整。
具体地,由于搜索语句集合中包括很多语义非完整的搜索语句,而这部分语义非完整搜索语句对于语句分类没有任何意义,因此可借助已训练好的语义分类器对搜索语句集合中的各个搜索语句的语义进行分类,得到搜索语句集合中语义表达不完整的语义非完整搜索语句。进一步地,可将语义非完整搜索语句过滤,将搜索语句集合中过滤后得到的搜索语句组成候选搜索语句集合。
例如,搜索语句集合为:“成都最近的天气如何呢”、“成都周边有什么好玩的景点推荐”、“成都到绵阳到底有多少公里呢”、“成都你在”、“播放歌曲成都”、“成都你我他很好啊”、“成都我最近才”、“成都这个到底好不好听能不能有人告诉我”,将搜索语句集合输入至已训练好的语义分类器中,通过分类器对各个搜索语句的语义进行分类,得到语义非完整搜索语句为:“成都你在”、“成都我最近才”,这两句都属于语义表达不完整的语义非完整搜索语句,进一步地,将语义表达不完整的语义非完整搜索语句进行过滤,将搜索语句集合中过滤后得到的搜索语句组成候选搜索语句集合:“成都最近的天气如何呢”、“成都周边有什么好玩的景点推荐”、“成都到绵阳到底有多少公里呢”、“播放歌曲成都”、“成都你我他很好啊”、“成都这个到底好不好听能不能有人告诉我”。
在一个实施例中,如图6所示,根据预设筛选规则从搜索语句集合中筛选得到候选搜索语句集合,包括:
步骤602,获取待关注实体。
步骤604,从搜索语句集合中获取与待关注实体不匹配的搜索语句,将不匹配的搜索语句过滤。
步骤606,将搜索语句集合中过滤后得到的搜索语句组成候选搜索语句集合。
其中,由于搜索语句集合中的搜索语句数量庞大,不可能将搜索语句集合中的全部搜索语句都拿来对语句分类模型进行训练,无用的数据容易导致训练数据量大,训练效率降低,因此可通过待关注实体对搜索语句集合进行筛选从而得到候选搜索语句集合。
其中,实体是用来描述的现实世界中的对象或概念,而待关注实体是根据业务需求或者实际应用场景从各个实体中确定得到的,待关注实体的数量具体可根据实际需要进行设置。例如,从多个实体中确定待关注实体为:“成都”。
具体地,获取待关注实体,从搜索语句集合中查找得到与待关注实体不匹配的搜索语句,所谓与待关注实体不匹配的搜索语句是指与待关注实体一点都不相关的搜索语句,而与待关注实体匹配的搜索语句是指与待关注实体相关的搜索语句,可以是将搜索语句中包括待关注实体的搜索语句作为待关注实体匹配的搜索语句,将搜索语句中不包括待关注实体的搜索语句作为待关注实体不匹配的搜索语句。进一步地,由于此时是根据待关注实体筛选搜索语句集合,因此将搜索语句集合中与待关注实体不匹配的搜索语句进行过滤,将搜索语句集合中过滤后得到的搜索语句组成候选搜索语句集合。
例如,待关注实体为:“成都”,搜索语句集合为:“成都最近的天气如何呢”、“深圳周边有什么好玩的景点推荐”、“成都到绵阳到底有多少公里呢”、“深圳你在”、“播放歌曲成都”、“深圳你我他很好啊”、“成都我最近才”、“成都这个到底好不好听能不能有人告诉我”,因此根据待关注实体对搜索语句集合进行筛选,得到与待关注实体匹配的搜索语句为:“成都最近的天气如何呢”、“成都到绵阳到底有多少公里呢”、“播放歌曲成都”、“成都我最近才”、“成都这个到底好不好听能不能有人告诉我”,而与待关注实体不匹配的搜索语句为:“深圳周边有什么好玩的景点推荐”、“深圳你在”、“深圳你我他很好啊”。
进一步地,将搜索语句集合中与待关注实体不匹配的搜索语句进行过滤,将搜索语句集合中过滤后得到的搜索语句组成候选搜索语句集合:“成都最近的天气如何呢”、“成都到绵阳到底有多少公里呢”、“播放歌曲成都”、“成都我最近才”、“成都这个到底好不好听能不能有人告诉我”。也就是说,候选搜索语句集合中的候选搜索语句都是与待关注实体有关的搜索语句,可以是搜索语句中包括待关注实体的所有搜索语句作为候选搜索语句。
在一个实施例中,如图7所示,语义分类器的训练步骤包括:
步骤702,获取训练搜索语句集合,训练搜索语句集合包括多个训练搜索语句。
步骤704,将训练搜索语句集合输入至原始语义分类器,通过原始语义分类器对各个训练搜索语句进行特征提取得到对应的初始训练特征。
其中,语义分类器是用来对搜索语句的语义进行分类的分类模型,可通过大量训练数据对语义分类器进行训练,得到已训练好的语义分类器。其中训练搜索语句是用来训练语义分类器的训练数据,获取语义分类器的训练搜索语句集合,该训练搜索语句集合中包括多个训练搜索语句,其中训练搜索语句可以是线上日志记载的全部搜索语句,即可将线上日志记载的全部搜索语句组成训练搜索语句集合。
进一步地,将获取到的训练搜索语句集合输入至原始语义分类器中,通过原始语义分类器对各个训练搜索语句进行特征提取,从而得到对应的初始训练特征,而此时特征提取得到的初始训练特征为语义维度较低的特征。
步骤706,原始语义分类器通过前向分类器和后向分类器分别对初始训练特征进行特征提取,得到对应的中间训练特征集合,中间训练特征集合包括前向分类器提取得到前向训练特征和后向分类器提取得到后向训练特征,中间训练特征的特征维度大于初始训练特征的特征维度。
其中,前向分类器和后向分类器是语义分类器中的中间结构,用来提取语义维度更高特征的中间结构。具体地,原始语义分类器通过前向分类器和后向分类器对初始训练特征进行特征提取,分别得到前向分类器输出的前向训练特征和后向分类器输出的后向训练特征,将前向训练特征和后向训练特征组成中间训练特征集合,其中前向训练特征和后向训练特征的语义维度大于初始训练特征的语义维度。例如,原始语义分类器使用双向神经网络LSTM从初始训练特征中获取高级特征。
步骤708,原始语义分类器根据预设权重向量和中间训练特征集合中的前向训练特征、后向训练特征计算得到语义分类器训练损失值。
步骤710,根据语义分类器训练损失值对原始语义分类器进行训练,直至满足分类器收敛条件,得到已训练的语义分类器。
具体地,在得到中间训练特征集合后,获取预设权重向量,根据预设权重向量和中间训练特征集合中的前向训练特征、后向训练特征计算得到语义分类器训练损失值。其中,训练损失值的计算方式可自定义,可以将预设权重向量分别和前向训练特征、后向训练特征计算得到对应的第一训练子损失值和第二训练子损失值,再根据第一训练子损失值和第二训练子损失值计算得到训练损失值,或者还可以是获取前向训练特征对应的第一预设权重子向量、后向训练特征对应的第二预设权重子向量,根据第一预设权重子向量和前向训练特征计算得到对应的第一训练子损失值和根据第二预设权重子向量和后向训练特征计算得到对应的第二训练子损失值,再根据第一训练子损失值和第二训练子损失值计算得到训练损失值等等。
进一步地,在计算得到语义分类器训练损失值后,根据语义分类器训练损失值对原始语义分类器进行训练,不断调整语义分类器的模型参数,直至满足分类器收敛条件,最后得到已训练的语义分类器。其中,收敛条件可自定义,自定义可以是训练损失值达到最小值,则可认为语义分类器满足收敛条件,或者还可以是训练损失值不再发生变化时,则可认为语义分类器满足收敛条件等等。
在一个实施例中,如图8所示,从预设搜索语句库中查找得到与领域搜索语句匹配的目标搜索语句,包括:
步骤802,获取预设搜索语句库,预设搜索语句库中包括多个候选问答对,候选问答对包括候选领域搜索语句和候选答案。
其中,预设搜索语句库除了用来存储各个预存搜索语句的数据库,还可存储由各个预存搜索语句和对应的候选答案组成的候选问答对,而预设搜索语句库可提前设置,预设搜索语句库中的候选问答对可以是对网页进行海量的挖掘得到的或者还可以是现有技术所有问答产品使用的问答对。具体可以是,先对网页上的搜索问答对进行挖掘,得到大量的搜索问答对,将挖掘得到的海量搜索问答对存储至预设搜索语句库,并作为预设搜索语句库的候选问答对。或者还可以是获取现有技术所有问答产品使用的人机问答对,将获取到的人机问答对进行存储,将人机问答对作为预设搜索语句库的候选问答对。
步骤804,计算领域搜索语句和候选领域搜索语句之间的候选关联度。
步骤806,根据候选关联度确定领域搜索语句匹配的目标搜索语句。
具体地,在获取预设搜索语句库后,可根据领域搜索语句和预设搜索语句库中的各个候选领域搜索语句之间的候选关联度确定与领域搜索语句匹配的目标搜索语句。其中,候选关联度是用来表征领域搜索语句和候选领域搜索语句之间的匹配度的信息,具体可以是相似度或者匹配度等等。其中,候选关联度的计算方式可自定义,自定义可以是计算领域搜索语句和各个候选领域搜索语句之间的相似度,将相似度作为候选关联度,或者自定义还可以是计算领域搜索语句和各个候选领域搜索语句之间的匹配度,将匹配度作为候选关联度,或者自定义还可以是根据预设算法自动计算领域搜索语句和各个候选领域搜索语句之间的候选关联度等等。预设算法可以是bm25算法。
进一步地,在计算得到领域搜索语句和预设搜索语句库中各个候选领域搜索语句之间的候选关联度后,根据候选关联度从预设搜索语句库的各个候选领域搜索语句中确定与领域搜索语句匹配的目标搜索语句。具体可以是,获取预设候选关联度,将预设候选关联度作为参考标准,根据候选关联度和预设候选关联度从各个候选领域搜索语句中确定与领域搜索语句匹配的目标搜索语句。例如,将候选关联度大于预设候选关联度的候选领域搜索语句确定为与领域搜索语句匹配的目标搜索语句。
在一个实施例中,如图9所示,将目标搜索语句对应的候选答案作为领域搜索语句对应的领域答案,得到关注领域对应的领域问答对,包括:
步骤902,从预设搜索语句库中获取目标搜索语句对应的候选答案,将候选答案作为领域搜索语句对应的领域答案。
步骤904,根据领域搜索语句和对应的领域答案生成关注领域对应的领域问答对。
其中,由于预设搜索语句库除了用来存储各个预存搜索语句的数据库,还可存储由各个预存搜索语句和对应的候选答案组成的候选问答对,因此在从预设搜索语句库中查找得到与领域搜索语句匹配的目标搜索语句后,从预设搜索语句库中获取目标搜索语句对应的候选答案,因为目标搜索语句与领域搜索语句存在很高的相似性,因此目标搜索语句对应的候选答案可以作为领域搜索语句对应的领域答案。进一步地,建立领域搜索语句和目标搜索语句对应的候选答案的关系,将目标搜索语句对应的候选答案作为领域搜索语句对应的领域答案,根据领域搜索语句和对应的领域答案生成领域问答对。其中,从预设搜索语句库中获取目标搜索语句对应的候选答案可以通过AC自动机原理召回对应的候选答案。
例如,关注领域为地理领域,领域搜索语句为“成都周边有什么好玩的景点推荐”,而与领域搜索语句匹配的目标搜索语句为“成都周边有什么好玩的地方呢”,在存储的搜索问答对中目标搜索语句对应的候选答案为:“成都周围的著名景点有平乐古镇,黄龙溪,金鸡谷等一系列好玩的地方,都距离成都不远,一天可以来回”,因此,将目标搜索语句对应的候选答案“成都周围的著名景点有平乐古镇,黄龙溪,金鸡谷等一系列好玩的地方,都距离成都不远,一天可以来回”作为领域搜索语句“成都周边有什么好玩的景点推荐”对应的领域答案,建立领域搜索语句“成都周边有什么好玩的景点推荐”与候选答案“成都周围的著名景点有平乐古镇,黄龙溪,金鸡谷等一系列好玩的地方,都距离成都不远,一天可以来回”之间的关系,得到地理领域对应的领域问答对。
在一个实施例中,如图10所示,将领域问答对对应的领域搜索语句输入至原始语句分类模型进行训练,直至满足收敛条件,得到目标语句分类模型,包括:
步骤1002,获取问答对校对指令,根据问答对校对指令对领域问答对进行校对,得到关注领域对应的领域问答对和非领域问答对。
其中,问答对校对指令是用来校对领域问答对的指令,可以是用户通过相关应用触发生成的问答对校对指令,或者接收用户通过相关应用触发生成的问答对校对指令。为了提高领域问答对属于关注领域的准确性,因此需要通过问答对校对指令对领域问答对进行校对。具体可以是,终端或者服务器获取问答对校对指令后,根据问答对校对指令对领域问答对进行校对,校对主要是校对领域问答对的领域答案是否是领域搜索语句的正确答案,同时校对领域问答对是否是属于关注领域对应的领域问答对。进一步地,根据问答对校对指令对领域问答对进行校对,得到关注领域对应的领域问答对和非领域问答对,这里的领域问答对是指领域问答对属于关注领域相关的领域问答对,而非领域问答对与领域问答对是相对概念,是指该领域问答对不属于关注领域相关的非领域问答对。
步骤1004,将领域问答对对应的领域搜索语句作为原始语句分类模型的正样本训练集,将非领域问答对对应的非领域搜索语句作为原始语句分类模型的负样本训练集,对原始语句分类模型进行训练,直至满足收敛条件,得到目标语句分类模型。
其中,为了提高语句分类模型的领域分类的准确率,因此需要将关注领域对应的领域问答对对应的领域搜索语句作为原始语句分类模型的正样本训练集,将非领域问答对对应的非领域搜索语句作为原始语句分类模型的负样本训练集,对原始语句分类模型进行训练,不断调整原始语句分类模型的模型参数,直至满足收敛条件,最后得到目标语句分类模型。
具体地,在得到关注领域对应的领域问答对和非领域问答对,获取领域问答对对应的领域搜索语句,将领域搜索语句作为原始语句分类模型的正样本训练集,同时为领域搜索语句打上标签,作为该领域搜索语句的真实标签。同样地,获取非领域问答对对应的非领域搜索语句,将非领域搜索语句作为原始语句分类模型的负样本训练集,同时为非领域搜索语句打上标签,作为该领域搜索语句的真实标签。将正样本训练集和负样本训练集输入至原始语义分类模型中,输出对应的语句分类结果,根据语句分类结果和对应的真实标签计算得到训练损失值,根据训练损失值对原始语句分类模型进行训练,不断调整原始语句分类模型的模型参数,直至满足收敛条件,最后得到目标语句分类模型。其中,收敛条件可自定义,自定义可以是迭代次数达到预设迭代次数,则可认为语句分类模型满足收敛条件,或者还可以是训练损失值达到预设训练损失值,则可认为语句分类模型满足收敛条件等等。
在一个实施例中,如图11所示,语句分类模型训练方法还包括:
步骤1102,获取问答对编写指令。
步骤1104,以关注领域对应的领域问答对为参考,根据问答对编写指令对领域问答对的领域答案进行编写,将编写后的领域答案作为领域搜索语句对应的目标领域答案。
其中,问答对编写指令是用来对领域问答对进行编码的指令,可以通过用户通过相关应用触发生成的问答对编写指令,或者接收用户通过相关应用触发生成的问答对编写指令。由于预设搜索语句库中的搜索问答对可以是从网页上爬取得到的,网页上爬取得到的问答对有些存在不准确、或者问答不匹配等质量问题,因此为了提高领域问答对的准确率,以及提高后续领域问答对在使用过程时的准确率,需要对领域问答对中的领域答案进行编写。具体地,获取问答对编写指令,以领域问答对为参考,即以领域问答对中的领域答案为参考答案,可重新编写领域搜索语句对应的答案。由于领域问答对可能存在准确率低、匹配度差等质量问题,因此重新编写领域问答对,可保证领域问答对的准确性。但是假设领域问答对是准确的,则可不对该领域问答对进行编写或者操作。
进一步地,根据问答对编写指令对领域问答对的领域答案进行编写后,将编写后的领域答案作为领域搜索语句对应的目标领域答案。
步骤1106,将领域搜索语句和对应的目标领域答案组成目标领域问答对,得到关注领域对应的目标领域问答对,根据各个关注领域对应的目标领域问答对生成领域问答对库。
具体地,在得到领域搜索语句对应的目标领域答案后,建立领域搜索语句和目标领域答案之间的匹配关系,根据领域搜索语句和目标领域答案生成目标领域问答对。进一步地,将该目标领域问答对作为关注领域对应的目标领域问答对。最后,将各个关注领域对应的目标领域问答对组成领域问答对库,领域问答对库中存储有各个关注领域对应的目标领域问答对,从领域问答对库中可以查询得到待搜索语句对应的答案。
在一个实施例中,如图12所示,语句分类模型训练方法还包括:
步骤1202,获取待搜索语句。
步骤1204,从领域问答对库中确定与待搜索语句匹配的目标领域搜索语句。
步骤1206,将目标领域搜索语句对应的领域答案作为待搜索语句对应的目标答案。
其中,待搜索语句是用来搜索对应的答案的搜索语句,待搜索语句可以是任何形式的搜索语句,包括但不限于支持搜索语句、非支持搜索语句、中规中矩搜索语句和无明确意图搜索语句。这里的中规中举搜索语句是指常规搜索语句,句法结构、有明确的目的、语义表达完整的搜索语句,而支持搜索语句是指本身产品配置支持的搜索语句。
具体地,获取待搜索语句,根据待搜索语句和领域问答对库中的各个候选领域搜索语句之间的匹配度确定与待搜索语句匹配的目标搜索语句,匹配度计算具体可以是获取领域问答库中的各个候选领域搜索语句,计算待搜索语句和各个候选领域搜索语句之间的相似度,可将相似对作为匹配度,或者直接计算待搜索语句和各个候选领域搜索语句之间的匹配度。
进一步地,根据待搜索语句和各个候选领域搜索语句之间的匹配度确定与待搜索语句匹配的目标搜索语句,具体可以是根据匹配度和预设匹配度确定匹配的候选领域搜索语句,例如将匹配度大于预设匹配度的候选领域搜索语句作为与待搜索语句最为匹配的目标领域搜索语句。最后,由于领域问答对库存储各个候选领域搜索语句与对应的候选答案组成的候选问答对,因此从领域问答对库中获取目标领域搜索语句对应的候选答案,将获取到的候选答案作为待搜索语句对应的目标答案。
在一个实施例中,如图12A所示,图12A示出一个实施例中待搜索语句问答产品的界面示意图,待搜索语句问答产品存储有领域问答对库,领域问答对库中存储大量的候选问答对,待搜索语句问答产品获取到待搜索语句后,如:“叮当叮当,今天考考你中国的十大元帅是谁呀?”,根据待搜索语句从领域问答对库中确定与待搜索语句匹配的目标领域搜索语句为:“中国十大元帅”,在领域问答对库中,该目标领域搜索语句对应的候选答案为:“中国的十大元帅有:朱德、彭德怀、林彪、刘伯承、贺龙、陈毅、罗荣恒、徐向前、聂荣臻、叶剑英。”,由于目标领域搜索语句和待搜索语句之间存在较高的相似性以及匹配度,因此目标领域搜索语句的候选答案可以作为待搜索语句对应的答复,因此待搜索语句问答产品会显示或者语音回复该待搜索语句对应的答案为:“中国的十大元帅有:朱德、彭德怀、林彪、刘伯承、贺龙、陈毅、罗荣恒、徐向前、聂荣臻、叶剑英。”
在一个具体的实施例中,提供了一种语句分类模型训练方法,具体包括以下步骤:
1、获取搜索语句集合,搜索语句集合包括多个待回复的搜索语句。
1-1、获取线上日志采集得到的待搜索内容,从待搜索内容查找得到非支持搜索语句,将非支持搜索语句组成搜索语句集合,非支持搜索语句包括无明确意图的搜索语句和配置非支持搜索语句中的至少一种语句。
2、根据预设筛选规则从搜索语句集合中筛选得到候选搜索语句集合。
2-1、获取配置非支持搜索语句,将配置非支持搜索语句中的常规搜索语句过滤,将搜索语句集合中过滤后得到的搜索语句组成候选搜索语句集合。
2-2、将搜索语句集合输入至已训练好的语义分类器中,通过分类器对各个搜索语句的语义进行分类,得到语义非完整搜索语句,将语义非完整搜索语句过滤,将搜索语句集合中过滤后得到的搜索语句组成候选搜索语句集合。
2-2-1、语义分类器的训练步骤包括:
2-2-1-1、获取训练搜索语句集合,训练搜索语句集合包括多个训练搜索语句。
2-2-1-2、将训练搜索语句集合输入至原始语义分类器,通过原始语义分类器对各个训练搜索语句进行特征提取得到对应的初始训练特征。
2-2-1-3、原始语义分类器通过前向分类器和后向分类器分别对初始训练特征进行特征提取,得到对应的中间训练特征集合,中间训练特征集合包括前向分类器提取得到前向训练特征和后向分类器提取得到后向训练特征,中间训练特征的特征维度大于初始训练特征的特征维度。
2-2-1-4、原始语义分类器根据预设权重向量和中间训练特征集合中的前向训练特征、后向训练特征计算得到语义分类器训练损失值。
2-2-1-5、根据语义分类器训练损失值对原始语义分类器进行训练,直至满足分类器收敛条件,得到已训练的语义分类器。
2-3、获取待关注实体,从搜索语句集合中获取与待关注实体不匹配的搜索语句,将不匹配的搜索语句过滤,将搜索语句集合中过滤后得到的搜索语句组成候选搜索语句集合。
3、将候选搜索语句集合输入至原始语句分类模型中,得到关注领域对应的领域搜索语句。
4、从预设搜索语句库中查找得到与领域搜索语句匹配的目标搜索语句。
4-1、获取预设搜索语句库,预设搜索语句库中包括多个候选问答对,候选问答对包括候选领域搜索语句和候选答案。
4-2、计算领域搜索语句和候选领域搜索语句之间的候选关联度。
4-3、根据候选关联度确定领域搜索语句匹配的目标搜索语句。
5、将目标搜索语句对应的候选答案作为领域搜索语句对应的领域答案,得到关注领域对应的领域问答对,领域问答对包括领域搜索语句和对应的领域答案。
5-1、从预设搜索语句库中获取目标搜索语句对应的候选答案,将候选答案作为领域搜索语句对应的领域答案。
5-2、根据领域搜索语句和对应的领域答案生成关注领域对应的领域问答对。
6、将领域问答对对应的领域搜索语句输入至原始语句分类模型进行训练,直至满足收敛条件,得到目标语句分类模型。
6-1、获取问答对校对指令,根据问答对校对指令对领域问答对进行校对,得到关注领域对应的领域问答对和非领域问答对。
6-2、将领域问答对对应的领域搜索语句作为原始语句分类模型的正样本训练集,将非领域问答对对应的非领域搜索语句作为原始语句分类模型的负样本训练集,对原始语句分类模型进行训练,直至满足收敛条件,得到目标语句分类模型。
7、获取问答对编写指令。
8、以关注领域对应的领域问答对为参考,根据问答对编写指令对领域问答对的领域答案进行编写,将编写后的领域答案作为领域搜索语句对应的目标领域答案。
9、将领域搜索语句和对应的目标领域答案组成目标领域问答对,得到关注领域对应的目标领域问答对,根据各个关注领域对应的目标领域问答对生成领域问答对库。
10、获取待搜索语句。
11、从领域问答对库中确定与待搜索语句匹配的目标领域搜索语句。
12、将目标领域搜索语句对应的领域答案作为待搜索语句对应的目标答案。
在一个实际应用场景中,如图13所示,图13为一个实施例中语句分类模型训练方法的原理示意图,通过以下步骤对图13中的每一步骤进行详细说明:
1、线上非支持搜索语句获取
这一步是整个流程的起点,主要是指线上的日志挖掘,获取所有线上日志记载的非支持搜索语句,非支持搜索语句包括配置非支持搜索语句和语义表达不完整的搜索语句。
2、领域实体召回语料
这一步是筛选非支持搜索语句集合,主要是现有服务不能支持的语料太多,不可能全部拿来做处理,因此只需要用关注领域的实体去召回相关的搜索语句,比如,针对地理领域的实体“成都”能召回的搜索语句如下:“成都最近的天气如何呢”“成都周边有什么好玩的景点推荐”“成都到绵阳到底有多少公里呢”“成都你在”“播放歌曲成都”“成都你我他很好啊”“成都我最近才”“成都这个到底好不好听能不能有人告诉我”……
3、配置非支持搜索语句
为什么还要用筛选配置非支持搜索语句?这是因为服务某些端并没有勾选所有配置,比如某个端只勾选了音乐和视频。那对于其他的领域的搜索语句,比如天气领域的搜索语句自然就无法识别,就分到了非支持搜索语句中,但是实际上非支持搜索语句中的配置非支持搜索语句中包括很多常规搜索语句,只是因为配置原因导致无法支持。因此需要将非支持搜索语句中的配置非支持搜索语句中的常规搜索语句进行过滤。比如上面的例子中:“播放歌曲成都”,“成都最近的天气如何呢”分别是音乐领域的常规搜索语句和天气领域的常规搜索语句,因此在这一步中就会被过滤掉。这一步处理后剩下的搜索语句是:“成都周边有什么好玩的景点推荐”、“成都到绵阳到底有多少公里呢”、“成都你在”、“成都你我他很好啊”、“成都我最近才”、“成都这个到底好不好听能不能有人告诉我”……
4、语义完整搜索语句
所谓的语义完整搜索语句指的是需要从非支持搜索语句中选出语义表达完整的搜索语句,也就是判断一句话是否完整,如果一句话不完整,即将其进行过滤。语义完整搜索语句可以借助采用LSTM+attention机制训练出的语义分类器,语义分类器可将语义完整搜索语句和语义非完整搜索语句分类出来,比如上一步结果中的语料中被筛选的语料有:“成都你在”,“成都我最近才”,这两句都是语义表达不完整的搜索语句,因此需要将其进行过滤,这一步之后剩下的搜索语句为:“成都周边有什么好玩的景点推荐”、“成都到绵阳到底有多少公里呢”“成都你我他很好啊”、“成都这个到底好不好听能不能有人告诉我”……
5、领域候选预料
将配置非支持搜索语句中常规搜索语句过滤后的搜索语句和语义表达完整的搜索语句组成领域候选搜索语句,领域候选搜索语句作为语句分类模型的输入。
6、语句分类模型
语句分类模型的正负样本来源于平台(例如,正样本可以是地理、地理知识问答、地理问答领域的相关搜索语句,而负样本可以是音乐,视频,古诗……等其他所有领域的语料采样,正负样本比例1:5,如果正样本有10万,那负样本就采样50万)。具体地,先把正负样本输入至原始语句分类模型中进行训练,得到语句分类模型。接着把上一步中的结果放入语句分类模型进行分类,很明显“成都你我他很好啊”、“成都这个到底好不好听能不能有人告诉我”这些搜索语句不属于严格意义的地理领域语料,会被bert模型分为负类,最终只留下了:“成都周边有什么好玩的景点推荐”,“成都到绵阳到底有多少公里呢”……作为正类,正类为地理领域相关的搜索语句,而负类为其它领域相关的搜索语句。
6、目标搜索语句召回
这一步的主要意义在于通过搜索服务器es召回类似的搜索语句,扩充语义的多样性,使得同样的意思表达更为多样,更加丰富。Es的构建过程如下:进行海量的百度和搜狗问答对的挖掘,这些海量的数据都存储在hdfs(Hadoop分布式文件系统(HDFS))中,将所有问答对中的问题(也就是问题全部拿下来,数据量1.5亿个question),存储进es中以供检索,而问答对中的答案并没有动还是存在hdfs中。比如上一步的结果就可以拿es来进行检索,得到如下结果(es会返回相似的一大堆结果,例如只取得分最高的top1):“成都周边有什么好玩的景点推荐”→“成都周边有什么好玩的地方呢”,“成都到绵阳到底有多少公里呢”→“成都到绵阳多少公里”……
7、召回目标搜索语句对应的答案
在上一步通过es得到的相关搜索语句的扩展召回,而且召回的每一个搜索语句在hdfs中都是有相应的答案,而这个答案可以为后续的处理提供基本的参考。因此,可通过AC自动机原理,召回了每一个目标搜索语句的相关答案。最终得到了目标搜索语句对应的答案,例如:“成都周边有什么好玩的景点推荐”→“成都周边有什么好玩的地方呢”→“成都周围的著名景点有平乐古镇,黄龙溪,金鸡谷等一系列好玩的地方,都距离成都不远,一天可以来回”,“成都到绵阳到底有多少公里呢”→“成都到绵阳多少公里”→“全程约120km,驾车全高速,约1小时40分钟。”……
8、人工审核问答对
将语句分类模型输出的搜索语句和对应的候选答案组成问答对,需要少量的人工来快速审核组成的问答对是否合理,是否真的是地理领域的问答对,并且需要把审核之后的结果作为标准,反馈给语句分类模型的训练集,具体可以是正样本加入语句分类模型的正样本训练集,不是地理领域的问答对中的搜索语句就加入语句分类模型的负样本训练集,这样循环的迭代会使得语句分类模型越来越准确。
9、撰写答案
人工审核之后的结果,数据量依然很庞大,因此需要专业的供应商来快速、专业的撰写优质答案,以问答对为参考进行修改或者编写,最后返回只有验收成功后才能入库上线,提供更加优质的问答线上服务。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图14所示,提供了一种语句分类模型训练装置1400,该装置包括:
搜索语句集合获取模块1402,用于获取搜索语句集合,搜索语句集合包括多个待回复的搜索语句。
搜索语句集合筛选模块1404,用于根据预设筛选规则从搜索语句集合中筛选得到候选搜索语句集合。
语句分类模型处理模块1406,用于将候选搜索语句集合输入至原始语句分类模型中,得到关注领域对应的领域搜索语句。
搜索语句库查找模块1408,用于从预设搜索语句库中查找得到与领域搜索语句匹配的目标搜索语句。
领域问答对生成模块1410,用于将目标搜索语句对应的候选答案作为领域搜索语句对应的领域答案,得到关注领域对应的领域问答对,领域问答对包括领域搜索语句和对应的领域答案。
语句分类模型训练模块1412,用于将领域问答对对应的领域搜索语句输入至原始语句分类模型进行训练,直至满足收敛条件,得到目标语句分类模型。
在一个实施例中,如图15所示,搜索语句集合获取模块1402,包括:
待搜索内容获取单元1402a,用于获取线上日志采集得到的待搜索内容。
待搜索内容查找单元1402b,用于从待搜索内容查找得到非支持搜索语句,将非支持搜索语句组成搜索语句集合,非支持搜索语句包括无明确意图的搜索语句和配置非支持搜索语句中的至少一种语句。
在一个实施例中,如图16所示,搜索语句集合筛选模块1404,包括:
非支持搜索语句获取单元1404a,用于获取配置非支持搜索语句。
常规搜索语句过滤单元1404b,用于将配置非支持搜索语句中的常规搜索语句过滤。
候选搜索语句集合生成单元1404c,用于将搜索语句集合中过滤后得到的搜索语句组成候选搜索语句集合。
在一个实施例中,如图17所示,搜索语句集合筛选模块1404,包括:
语义分类器处理单元1404A,用于将搜索语句集合输入至已训练好的语义分类器中,通过分类器对各个搜索语句的语义进行分类,得到语义非完整搜索语句,将语义非完整搜索语句过滤。
搜索语句集合筛选单元1404B,用于将搜索语句集合中过滤后得到的搜索语句组成候选搜索语句集合。
在一个实施例中,如图18所示,搜索语句集合筛选模块1404,包括:
待关注实体获取单元1802,用于获取待关注实体。
待关注实体处理单元1804,用于从搜索语句集合中获取与待关注实体不匹配的搜索语句,将不匹配的搜索语句过滤。
搜索语句集合筛选单元1806,用于将搜索语句集合中过滤后得到的搜索语句组成候选搜索语句集合。
在一个实施例中,搜索语句集合筛选模块1404还用于获取训练搜索语句集合,训练搜索语句集合包括多个训练搜索语句;将训练搜索语句集合输入至原始语义分类器,通过原始语义分类器对各个训练搜索语句进行特征提取得到对应的初始训练特征;原始语义分类器通过前向分类器和后向分类器分别对初始训练特征进行特征提取,得到对应的中间训练特征集合,中间训练特征集合包括前向分类器提取得到前向训练特征和后向分类器提取得到后向训练特征,中间训练特征的特征维度大于初始训练特征的特征维度;原始语义分类器根据预设权重向量和中间训练特征集合中的前向训练特征、后向训练特征计算得到语义分类器训练损失值;根据语义分类器训练损失值对原始语义分类器进行训练,直至满足分类器收敛条件,得到已训练的语义分类器。
在一个实施例中,如图19所示,搜索语句库查找模块1408,包括:
预设搜索语句库获取单元1408a,用于获取预设搜索语句库,预设搜索语句库中包括多个候选问答对,候选问答对包括候选领域搜索语句和候选答案。
候选关联度计算单元1408b,用于计算领域搜索语句和候选领域搜索语句之间的候选关联度。
目标搜索语句匹配单元1408c,用于根据候选关联度确定领域搜索语句匹配的目标搜索语句。
在一个实施例中,领域问答对生成模块1410还用于从预设搜索语句库中获取目标搜索语句对应的候选答案,将候选答案作为领域搜索语句对应的领域答案;根据领域搜索语句和对应的领域答案生成关注领域对应的领域问答对。
在一个实施例中,语句分类模型训练模块1412还用于获取问答对校对指令,根据问答对校对指令对领域问答对进行校对,得到关注领域对应的领域问答对和非领域问答对;将领域问答对对应的领域搜索语句作为原始语句分类模型的正样本训练集,将非领域问答对对应的非领域搜索语句作为原始语句分类模型的负样本训练集,对原始语句分类模型进行训练,直至满足收敛条件,得到目标语句分类模型。
在一个实施例中,语句分类模型训练装置1400还用于获取问答对编写指令;以关注领域对应的领域问答对为参考,根据问答对编写指令对领域问答对的领域答案进行编写,将编写后的领域答案作为领域搜索语句对应的目标领域答案;将领域搜索语句和对应的目标领域答案组成目标领域问答对,得到关注领域对应的目标领域问答对,根据各个关注领域对应的目标领域问答对生成领域问答对库。
在一个实施例中,语句分类模型训练装置1400还用于获取待搜索语句;从领域问答对库中确定与待搜索语句匹配的目标领域搜索语句;将目标领域搜索语句对应的领域答案作为待搜索语句对应的目标答案。
图20示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110或服务器120。如图20所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现语句分类模型训练方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行语句分类模型训练方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图20中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的语句分类模型训练装置可以实现为一种计算机程序的形式,计算机程序可在如图20所示的计算机设备上运行。计算机设备的存储器中可存储组成该语句分类模型训练装置的各个程序模块,比如,图14所示的搜索语句集合获取模块、搜索语句集合筛选模块、语句分类模型处理模块、搜索语句库查找模块、领域问答对生成模块和语句分类模型训练模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的语句分类模型训练方法中的步骤。
例如,图20所示的计算机设备可以通过如图14所示的语句分类模型训练装置中的搜索语句集合获取模块执行获取搜索语句集合,搜索语句集合包括多个待回复的搜索语句。搜索语句集合筛选模块执行根据预设筛选规则从搜索语句集合中筛选得到候选搜索语句集合。语句分类模型处理模块执行将候选搜索语句集合输入至原始语句分类模型中,得到关注领域对应的领域搜索语句。搜索语句库查找模块执行从预设搜索语句库中查找得到与领域搜索语句匹配的目标搜索语句。领域问答对生成模块执行将目标搜索语句对应的候选答案作为领域搜索语句对应的领域答案,得到关注领域对应的领域问答对,领域问答对包括领域搜索语句和对应的领域答案。语句分类模型训练模块执行将领域问答对对应的领域搜索语句输入至原始语句分类模型进行训练,直至满足收敛条件,得到目标语句分类模型。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述语句分类模型训练方法的步骤。此处语句分类模型训练方法的步骤可以是上述各个实施例的语句分类模型训练方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述语句分类模型训练方法的步骤。此处语句分类模型训练方法的步骤可以是上述各个实施例的语句分类模型训练方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种语句分类模型训练方法,包括:
获取搜索语句集合,所述搜索语句集合包括多个待回复的搜索语句;
根据预设筛选规则从所述搜索语句集合中筛选得到候选搜索语句集合;
将所述候选搜索语句集合输入至原始语句分类模型中,得到关注领域对应的领域搜索语句;
从预设搜索语句库中查找得到与所述领域搜索语句匹配的目标搜索语句;
将所述目标搜索语句对应的候选答案作为所述领域搜索语句对应的领域答案,得到所述关注领域对应的领域问答对,所述领域问答对包括领域搜索语句和对应的领域答案;
将所述领域问答对对应的领域搜索语句输入至所述原始语句分类模型进行训练,直至满足收敛条件,得到目标语句分类模型。
2.根据权利要求1所述的方法,其特征在于,所述获取搜索语句集合,所述搜索语句集合包括多个待回复的搜索语句,包括:
获取线上日志采集得到的待搜索内容;
从所述待搜索内容查找得到非支持搜索语句,将所述非支持搜索语句组成搜索语句集合,所述非支持搜索语句包括无明确意图的搜索语句和配置非支持搜索语句中的至少一种语句。
3.根据权利要求1所述的方法,其特征在于,所述根据预设筛选规则从所述搜索语句集合中筛选得到候选搜索语句集合,包括:
获取所述配置非支持搜索语句;
将所述配置非支持搜索语句中的常规搜索语句过滤;
将所述搜索语句集合中过滤后得到的搜索语句组成所述候选搜索语句集合。
4.根据权利要求1所述的方法,其特征在于,所述根据预设筛选规则从所述搜索语句集合中筛选得到候选搜索语句集合,包括:
将所述搜索语句集合输入至已训练好的语义分类器中,通过所述分类器对各个所述搜索语句的语义进行分类,得到语义非完整搜索语句,将所述语义非完整搜索语句过滤;
将所述搜索语句集合中过滤后得到的搜索语句组成所述候选搜索语句集合。
5.根据权利要求1所述的方法,其特征在于,所述根据预设筛选规则从所述搜索语句集合中筛选得到候选搜索语句集合,包括:
获取待关注实体;
从所述搜索语句集合中获取与所述待关注实体不匹配的搜索语句,将所述不匹配的搜索语句过滤;
将所述搜索语句集合中过滤后得到的搜索语句组成所述候选搜索语句集合。
6.根据权利要求4所述的方法,其特征在于,所述语义分类器的训练步骤包括:
获取训练搜索语句集合,所述训练搜索语句集合包括多个训练搜索语句;
将所述训练搜索语句集合输入至原始语义分类器,通过所述原始语义分类器对各个所述训练搜索语句进行特征提取得到对应的初始训练特征;
所述原始语义分类器通过前向分类器和后向分类器分别对所述初始训练特征进行特征提取,得到对应的中间训练特征集合,所述中间训练特征集合包括所述前向分类器提取得到前向训练特征和所述后向分类器提取得到后向训练特征,所述中间训练特征的特征维度大于所述初始训练特征的特征维度;
所述原始语义分类器根据预设权重向量和所述中间训练特征集合中的所述前向训练特征、所述后向训练特征计算得到语义分类器训练损失值;
根据所述语义分类器训练损失值对所述原始语义分类器进行训练,直至满足分类器收敛条件,得到已训练的语义分类器。
7.根据权利要求1所述的方法,其特征在于,所述从预设搜索语句库中查找得到与所述领域搜索语句匹配的目标搜索语句,包括:
获取预设搜索语句库,所述预设搜索语句库中包括多个候选问答对,所述候选问答对包括候选领域搜索语句和候选答案;
计算所述领域搜索语句和所述候选领域搜索语句之间的候选关联度;
根据所述候选关联度确定所述领域搜索语句匹配的目标搜索语句。
8.根据权利要求7所述的方法,其特征在于,所述将所述目标搜索语句对应的候选答案作为所述领域搜索语句对应的领域答案,得到所述关注领域对应的领域问答对,包括:
从所述预设搜索语句库中获取所述目标搜索语句对应的候选答案,将所述候选答案作为所述领域搜索语句对应的领域答案;
根据所述领域搜索语句和对应的领域答案生成所述关注领域对应的领域问答对。
9.根据权利要求1所述的方法,其特征在于,所述将所述领域问答对对应的领域搜索语句输入至所述原始语句分类模型进行训练,直至满足收敛条件,得到目标语句分类模型,包括:
获取问答对校对指令,根据所述问答对校对指令对所述领域问答对进行校对,得到所述关注领域对应的领域问答对和非领域问答对;
将所述领域问答对对应的领域搜索语句作为所述原始语句分类模型的正样本训练集,将所述非领域问答对对应的非领域搜索语句作为所述原始语句分类模型的负样本训练集,对所述原始语句分类模型进行训练,直至满足收敛条件,得到目标语句分类模型。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取问答对编写指令;
以所述关注领域对应的领域问答对为参考,根据所述问答对编写指令对所述领域问答对的领域答案进行编写,将编写后的领域答案作为所述领域搜索语句对应的目标领域答案;
将所述领域搜索语句和对应的目标领域答案组成目标领域问答对,得到所述关注领域对应的目标领域问答对,根据各个关注领域对应的目标领域问答对生成领域问答对库。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
获取待搜索语句;
从所述领域问答对库中确定与所述待搜索语句匹配的目标领域搜索语句;
将所述目标领域搜索语句对应的领域答案作为所述待搜索语句对应的目标答案。
12.一种语句分类模型训练装置,其特征在于,所述装置包括:
搜索语句集合获取模块,用于获取搜索语句集合,所述搜索语句集合包括多个待回复的搜索语句;
搜索语句集合筛选模块,用于根据预设筛选规则从所述搜索语句集合中筛选得到候选搜索语句集合;
语句分类模型处理模块,用于将所述候选搜索语句集合输入至原始语句分类模型中,得到关注领域对应的领域搜索语句;
搜索语句库查找模块,用于从预设搜索语句库中查找得到与所述领域搜索语句匹配的目标搜索语句;
领域问答对生成模块,用于将所述目标搜索语句对应的候选答案作为所述领域搜索语句对应的领域答案,得到所述关注领域对应的领域问答对,所述领域问答对包括领域搜索语句和对应的领域答案;
语句分类模型训练模块,用于将所述领域问答对对应的领域搜索语句输入至所述原始语句分类模型进行训练,直至满足收敛条件,得到目标语句分类模型。
13.根据权利要求12所述的装置,其特征在于,所述搜索语句集合获取模块,包括:
待搜索内容获取单元,用于获取线上日志采集得到的待搜索内容;
待搜索内容查找单元,用于从所述待搜索内容查找得到非支持搜索语句,将所述非支持搜索语句组成搜索语句集合,所述非支持搜索语句包括无明确意图的搜索语句和配置非支持搜索语句中的至少一种语句。
14.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910420398.7A CN110163281B (zh) | 2019-05-20 | 2019-05-20 | 语句分类模型训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910420398.7A CN110163281B (zh) | 2019-05-20 | 2019-05-20 | 语句分类模型训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110163281A true CN110163281A (zh) | 2019-08-23 |
CN110163281B CN110163281B (zh) | 2024-07-12 |
Family
ID=67631706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910420398.7A Active CN110163281B (zh) | 2019-05-20 | 2019-05-20 | 语句分类模型训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110163281B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377706A (zh) * | 2019-07-25 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 基于深度学习的搜索语句挖掘方法及设备 |
CN112668664A (zh) * | 2021-01-06 | 2021-04-16 | 安徽迪科数金科技有限公司 | 一种基于智能语音的话术训练方法 |
CN112988999A (zh) * | 2021-03-17 | 2021-06-18 | 平安科技(深圳)有限公司 | 佛学问答对的构建方法、装置、设备及存储介质 |
CN113159187A (zh) * | 2021-04-23 | 2021-07-23 | 北京金山数字娱乐科技有限公司 | 分类模型训练方法及装置、目标文本确定方法及装置 |
WO2021169842A1 (zh) * | 2020-02-24 | 2021-09-02 | 京东方科技集团股份有限公司 | 数据更新方法、装置、电子设备及计算机可读存储介质 |
CN118072720A (zh) * | 2024-04-22 | 2024-05-24 | 深圳市友杰智新科技有限公司 | 降低流式命令词误识别率方法、装置、设备及存储介质 |
EP4200741A4 (en) * | 2020-08-19 | 2024-08-21 | Ushur Inc | SYSTEM AND METHOD FOR EXTRACTING INFORMATION FROM UNSTRUCTURED IMAGE DOCUMENTS |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140006012A1 (en) * | 2012-07-02 | 2014-01-02 | Microsoft Corporation | Learning-Based Processing of Natural Language Questions |
CN104516986A (zh) * | 2015-01-16 | 2015-04-15 | 青岛理工大学 | 一种语句识别方法及装置 |
CN104598445A (zh) * | 2013-11-01 | 2015-05-06 | 腾讯科技(深圳)有限公司 | 自动问答系统和方法 |
CN106844400A (zh) * | 2015-12-07 | 2017-06-13 | 南京中兴新软件有限责任公司 | 智能应答方法及装置 |
CN106844530A (zh) * | 2016-12-29 | 2017-06-13 | 北京奇虎科技有限公司 | 一种问答对分类模型的训练方法和装置 |
WO2018149326A1 (zh) * | 2017-02-16 | 2018-08-23 | 阿里巴巴集团控股有限公司 | 一种自然语言问句答案的生成方法、装置及服务器 |
CN108595619A (zh) * | 2018-04-23 | 2018-09-28 | 海信集团有限公司 | 一种问答方法及设备 |
-
2019
- 2019-05-20 CN CN201910420398.7A patent/CN110163281B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140006012A1 (en) * | 2012-07-02 | 2014-01-02 | Microsoft Corporation | Learning-Based Processing of Natural Language Questions |
CN104598445A (zh) * | 2013-11-01 | 2015-05-06 | 腾讯科技(深圳)有限公司 | 自动问答系统和方法 |
CN104516986A (zh) * | 2015-01-16 | 2015-04-15 | 青岛理工大学 | 一种语句识别方法及装置 |
CN106844400A (zh) * | 2015-12-07 | 2017-06-13 | 南京中兴新软件有限责任公司 | 智能应答方法及装置 |
CN106844530A (zh) * | 2016-12-29 | 2017-06-13 | 北京奇虎科技有限公司 | 一种问答对分类模型的训练方法和装置 |
WO2018149326A1 (zh) * | 2017-02-16 | 2018-08-23 | 阿里巴巴集团控股有限公司 | 一种自然语言问句答案的生成方法、装置及服务器 |
CN108595619A (zh) * | 2018-04-23 | 2018-09-28 | 海信集团有限公司 | 一种问答方法及设备 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377706A (zh) * | 2019-07-25 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 基于深度学习的搜索语句挖掘方法及设备 |
CN110377706B (zh) * | 2019-07-25 | 2022-10-14 | 腾讯科技(深圳)有限公司 | 基于深度学习的搜索语句挖掘方法及设备 |
WO2021169842A1 (zh) * | 2020-02-24 | 2021-09-02 | 京东方科技集团股份有限公司 | 数据更新方法、装置、电子设备及计算机可读存储介质 |
US11797585B2 (en) | 2020-02-24 | 2023-10-24 | Boe Technology Group Co., Ltd. | Data updating method and apparatus, electronic device and computer readable storage medium |
EP4200741A4 (en) * | 2020-08-19 | 2024-08-21 | Ushur Inc | SYSTEM AND METHOD FOR EXTRACTING INFORMATION FROM UNSTRUCTURED IMAGE DOCUMENTS |
CN112668664A (zh) * | 2021-01-06 | 2021-04-16 | 安徽迪科数金科技有限公司 | 一种基于智能语音的话术训练方法 |
CN112668664B (zh) * | 2021-01-06 | 2022-11-15 | 安徽迪科数金科技有限公司 | 一种基于智能语音的话术训练方法 |
CN112988999A (zh) * | 2021-03-17 | 2021-06-18 | 平安科技(深圳)有限公司 | 佛学问答对的构建方法、装置、设备及存储介质 |
CN113159187A (zh) * | 2021-04-23 | 2021-07-23 | 北京金山数字娱乐科技有限公司 | 分类模型训练方法及装置、目标文本确定方法及装置 |
CN118072720A (zh) * | 2024-04-22 | 2024-05-24 | 深圳市友杰智新科技有限公司 | 降低流式命令词误识别率方法、装置、设备及存储介质 |
CN118072720B (zh) * | 2024-04-22 | 2024-08-06 | 深圳市友杰智新科技有限公司 | 降低流式命令词误识别率方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110163281B (zh) | 2024-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163281A (zh) | 语句分类模型训练方法和装置 | |
Lenarduzzi et al. | MVP explained: A systematic mapping study on the definitions of minimal viable product | |
CN104850539B (zh) | 一种自然语言理解方法及基于该方法的旅游问答系统 | |
CN107133345A (zh) | 基于人工智能的交互方法和装置 | |
Sarne et al. | Unsupervised topic extraction from privacy policies | |
Scrivens et al. | Searching for extremist content online using the dark crawler and sentiment analysis | |
KR20210082108A (ko) | 부동산 실거래가 예측 기반 부동산 예상 실거래가 산출 장치의 동작 방법 | |
CA3060498A1 (en) | Method and system for integrating web-based systems with local document processing applications | |
CN109710918A (zh) | 舆情关系识别方法、装置、计算机设备和存储介质 | |
Velásquez-Durán et al. | Research management systems: Systematic mapping of literature (2007-2017) | |
CN116737915A (zh) | 基于知识图谱的语义检索方法、装置、设备及存储介质 | |
CN109710922A (zh) | 文本识别方法、装置、计算机设备和存储介质 | |
CN113254630A (zh) | 一种面向全球综合观测成果的领域知识图谱推荐方法 | |
Songini et al. | A decade of integrated reporting studies: state of the art and future research implications | |
CN109447412A (zh) | 构建企业关系图谱的方法、装置、计算机设备和存储介质 | |
Bernabé-Moreno et al. | An automatic skills standardization method based on subject expert knowledge extraction and semantic matching | |
CN106776640A (zh) | 一种股票资讯信息展示方法和装置 | |
CN114491209A (zh) | 基于互联网信息抓取的企业业务标签挖掘的方法和系统 | |
CN117609483A (zh) | 一种内容生成方法、电子设备及存储介质 | |
CN108986786A (zh) | 语音交互设备评级方法、系统、计算机设备和存储介质 | |
Di Martino et al. | Machine learning, big data analytics and natural language processing techniques with application to social media analysis for energy communities | |
Karsvall et al. | SDHK meets NER: Linking Place Names with Medieval Charters and Historical Maps. | |
Wang et al. | MARec: A multi-attention aware paper recommendation method | |
CN109902258A (zh) | 基于区块链的数据处理方法及设备 | |
Tian et al. | Semantic similarity measure of natural language text through machine learning and a keyword‐aware cross‐encoder‐ranking summarizer—A case study using UCGIS GIS &T body of knowledge |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |