CN110727769A - 语料库生成方法及装置、人机交互处理方法及装置 - Google Patents
语料库生成方法及装置、人机交互处理方法及装置 Download PDFInfo
- Publication number
- CN110727769A CN110727769A CN201810712333.5A CN201810712333A CN110727769A CN 110727769 A CN110727769 A CN 110727769A CN 201810712333 A CN201810712333 A CN 201810712333A CN 110727769 A CN110727769 A CN 110727769A
- Authority
- CN
- China
- Prior art keywords
- corpus
- vector
- initial
- vectors
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 117
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 578
- 230000011218 segmentation Effects 0.000 claims description 61
- 238000012545 processing Methods 0.000 claims description 19
- 238000004891 communication Methods 0.000 claims description 13
- 238000013139 quantization Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000006227 byproduct Substances 0.000 claims description 6
- 239000000047 product Substances 0.000 claims description 5
- 238000005192 partition Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 8
- 238000013136 deep learning model Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种语料库生成方法及装置、人机交互处理方法及装置,其中,语料库生成方法包括:根据获取的初始语料生成初始语料向量,并确定各所述初始语料向量的向量类型;根据所述向量类型和所述初始语料向量生成具有倒排链式索引的初始语料库。在问答系统应用通过本发明实施例生成的语料库时,问答系统效果更好。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种语料库生成方法及装置、人机交互处理方法及装置。
背景技术
问答系统是指以自然语言理解为核心,使计算机等能够理解并回应用户的问题(query),实现计算机与用户之间的问答对话。
业界对问答系统有不同的划分维度,按照内容维度可划分为结构化数据问答、非结构化数据问答、以及基于问答对的问答。而从技术角度划分,问答系统一般分为基于检索式的问答系统和基于生成式的问答系统。基于检索式的问答系统是将信息检索系统构建于大规模对话数据集之上,通过建立有效的问句匹配和问答相关度量化模型实现对用户问题的合理回复;基于生成式的问答系统则通过构建端到端(End-to-End)的深度学习模型,从海量对话数据中自动学习问题(query)和回复(response)之间的语义关联,从而达到对于任何用户问题都能够自动生成回复的目的。
针对基于生成式的问答系统其智能性和回复的准确性受限于所使用的深度学习模型和深度学习模型训练用的样本数量和质量,由于现有的开发技术还未能开发出较好的适用于问答系统的深度学习模型,导致这类问答系统的回复准确性不高。
现有的问答系统主要是基于检索式的问答系统,这类问答系统在使用时获得用户输入的问题后,通常是通过文本倒排的方法从语料库中召回候选的问题集合,这些候选的问题集合中的问题(question)通常是与用户输入的问题一致或相似的问题。之后,再从候选的问题集合中确定最接近的问题,以该问题对应的答案(answer)作为回复(response),完成对用户问题的回答。这类问答系统的优点是实现简单、准确率高,但对建库语料依赖大,需要极大极丰富的语料库进行支持。如果没有任何文本共现属性的单词出现,即使表达的语义一致,也是无法召回的。这使得一些准确性较高的回答由于没有文本共现属性而无法召回,造成损失。而语料库中需要对同一语义存储多个语料,造成存储负担大,存储成本增加。
发明内容
有鉴于此,本发明实施例提供一种语料库生成方法及装置、人机交互处理方法及装置,以解决使用现有的语料库的问答系统使用效果不好的问题。
根据本发明实施例的第一方面,提供了一种语料库生成方法包括:根据获取的初始语料生成初始语料向量,并确定各初始语料向量的向量类型;根据向量类型和初始语料向量生成具有倒排链式索引的初始语料库。
根据本发明实施例的第二方面,提供了一种语料库生成装置包括:向量类型确定模块,用于根据获取的初始语料生成初始语料向量,并确定各初始语料向量的向量类型;初始语料库生成模块,用于根据向量类型和初始语料向量生成具有倒排链式索引的初始语料库。
根据本发明实施例的第三方面,提供了一种人机交互处理方法包括:根据获取的人机交互输入生成对应的人机交互输入向量;根据所述人机交互输入向量,从预设的语料库中确定n个最接近的语料向量,其中,n为大于等于1的正整数,其中,所述预设的语料库至少包括通过权利要求1-7中任一项的所述的方法生成的初始语料库;确定所述n个最接近的语料向量对应的语料的置信度,并根据所述置信度确定目标语料;根据所述目标语料生成对应于所述人机交互输入的答复。
根据本发明实施例的第四方面,提供了一种人机交互处理装置包括:问题向量获取模块,用于根据获取的人机交互输入生成对应的人机交互输入向量;语料查找模块,用于根据所述人机交互输入向量,从预设的语料库中确定n个最接近的语料向量,其中,n为大于等于1的正整数,其中,所述预设的语料库至少包括通过第一方面的方法生成的初始语料库;目标语料确定模块,用于确定所述n个最接近的语料向量对应的语料的置信度,并根据所述置信度确定目标语料;答复生成模块,用于根据所述目标语料生成对应于所述人机交互输入的答复。
根据本发明实施例的第五方面,提供了一种提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行如第一方面的语料库生成方法对应的操作,或者存储器用于存放至少一可执行指令,可执行指令使处理器执行如第三方面的人机交互处理方法对应的操作。
由以上技术方案可见,本发明实施例提供的语料库生成方案,生成一种具有倒排链式索引的初始语料库,由于具有倒排链式索引结构,且将具有相同向量类型的初始语料向量进行聚类存储,使得进行检索时检索效率更高,可以提升使用该初始语料库的问答系统的响应速度。此外,由于将初始语料进行了向量化,生成了初始语料向量,在确定初始语料向量的向量类型时可以很好地体现初始语料之间的语义相似性,进而从根本上解决了现有技术中存在的无文本共现属性的初始语料之间无法体现语义相似性的问题,使得后续使用该初始语料库的问答系统的回答准确性更好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例一的一种语料库生成方法的步骤流程图;
图2为根据本发明实施例二的一种语料库生成方法的步骤流程图;
图3为根据本发明实施例三的一种语料库生成装置的结构框图;
图4为根据本发明实施例四的一种语料库生成装置的结构框图;
图5为根据本发明实施例五的一种人机交互处理方法的步骤流程图;
图6为根据本发明实施例六的一种人机交互处理方法的步骤流程图;
图7为根据本发明实施例七的一种人机交互处理装置的结构框图;
图8为根据本发明实施例八的一种人机交互处理装置的结构框图;
图9为根据本发明实施例九的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
实施例一
参照图1,示出了本发明实施例一的一种语料库生成方法的步骤流程图。
本实施例的语料库生成方法包括以下步骤:
步骤S102:根据获取的初始语料生成初始语料向量。
初始语料可以是通过自然语言方式表达的文本数据、图像数据、语音数据等数据中一种或多种的组合。初始语料向量可以是与初始语料对应的向量。
其中,本领域技术人员可以根据实际需要采用适当的方式根据获取的初始语料生成初始语料向量。例如,通过Word2vec算法,根据初始语料生成初始语料向量;也可以通过BOW(bag-of-Word)模型,根据初始语料生成初始语料向量;或者采用其他方式生成初始语料向量。
步骤S104:确定各所述初始语料向量的向量类型。
向量类型用于表征初始语料向量的分类,距离相近的初始语料向量属于同一向量类型。对于初始语料而言,语义相近的初始语料,生成的初始语料向量的距离也相近。基于这一特点利用向量类型将初始语料向量分类,一方面可以提升检索的快速性,降低检索量和检索次数,另一方面,可以优化生成的语料库的结构,降低语料库占用的存储空间,降低存储成本。
本领域技术人员可以根据实际需要采用适当的方式确定每个初始语料向量的向量类型,例如,预设第一数量(例如,256个)的类中心点,每个类中心点代表一种向量类型,通过计算每个初始语料向量与各个类中心点的距离确定各初始语料向量的向量类型。其中,第一数量可以根据需要确定,第一数量越大分类精度越高,相应的检索数量越多,反之亦然。
步骤S106:根据所述向量类型和所述初始语料向量生成具有倒排链式索引的初始语料库。
为了提升初始语料库检索的便捷性,初始语料库采用倒排链式索引的方式存储每个初始语料向量及其对应的向量类型。倒排链式索引为一种倒排索引(inverted index),倒排索引根据属性的值来查找记录。倒排索引中的每一项都包括一个属性值和具有该属性值的各记录的地址。在进行检索时,可以根据属性值来确定记录的位置。
在本实施例中,倒排链式索引的属性值可以为向量类型,记录的地址可以为具有该向量类型的各初始语料向量的地址。
根据本实施例的语料库生成方法,生成一种具有倒排链式索引的初始语料库,由于具有倒排链式索引结构,且将具有相同向量类型的初始语料向量进行聚类存储,使得通过该语料库生成方法生成的初始语料库所占用的存储空间更小,进行检索时检索效率更高,可以提升使用该初始语料库的问答系统的响应速度。此外,由于将初始语料进行了向量化,生成了初始语料向量,在确定初始语料向量的向量类型时可以很好地体现初始语料之间的语义相似性,进而从根本上解决了现有技术中存在的无文本共现属性的初始语料之间无法体现语义相似性的问题,使得后续使用该初始语料库的问答系统的回答准确性更好。
本实施例的语料库生成方法可以由任意适当的具有数据处理能力的终端设备、服务器等执行,终端设备包括但不限于:移动终端,如平板电脑、手机,以及台式机等。
实施例二
参照图2,示出了本发明实施例二的一种语料库生成方法的步骤流程图。
本实施例的语料库生成方法包括以下步骤:
步骤S202:根据获取的初始语料生成初始语料向量。
初始语料可以是通过自然语言方式表达的文本数据、图像数据和/或语音数据等。初始语料向量可以是与这些初始语料对应的向量。
其中,本领域技术人员可以根据实际需要采用适当的方式根据获取的初始语料生成初始语料向量。例如,通过Word2vec算法,根据初始语料生成初始语料向量;也可以通过BOW(bag-of-Word)模型,根据初始语料生成初始语料向量。
为了在后续人机交互处理方法中使用通过上述方法生成的语料库时,确保问答的准确性,优选地,通过下述步骤S202a~S202b生成初始语料向量。
步骤S202a:确定所述初始语料的分词结果,以及所述分词结果中各词对应的词向量。
由于获取的初始语料可以是不同的类型和格式,为了便于对初始语料进行处理,可以对为语音数据或视频数据等非文本数据的初始语料,通过语音识别工具或算法将语音数据或视频数据等转换为文本数据。
例如,初始语料可以是:
语料1:“北京今天冷吗”。
语料2:“今天多少度”。
语料3:“查询谷歌”。
语料4:“查询Google”。
针对每个所述初始语料,进行分词处理以生成对应的分词结果。
分词处理是指将一个汉字序列(或其他语言序列)切分成一个一个的单独的词。
对初始语料进行分词处理可以采用任何适当的分词算法或分词工具,例如,StandardAnalyzer分词工具、ChineseAnalyzer分词工具、CJKAnalyzer分词工具和jieba分词工具等。
针对语料1,进行分词处理后,分词结果可以为:“北京”|“今天”|“冷”|“吗”。
针对语料2,进行分词处理后的分词结果可以为“今天”|“多少”|“度”。
针对语料3,进行分词处理后的分词结果可以为“查询”|“谷歌”。
针对语料4,进行分词处理后的分词结果可以为“查询”|“Google”。
当然,采用不同的分词工具或分词算法对同一初始语料的分词结果可能不同。
为了提升后续处理的准确性,对初始语料进行分词后,可以根据需要进行去除停用词处理或可以根据需要不进行停用词处理。停用词是指对语义无实质影响的词,如语气词等。
针对每个分词结果,确定所述分词结果中各词对应的词向量时,可以通过词向量算法计算获得,也可以从词向量库中检索获得。其中,词向量是通过数学表达方法表达自然语言中的词时使用的表达方式。
当采用通过从预设的词向量库中查找并确定所述分词结果中各词对应的词向量的方式,确定各词的词向量时,词向量库可以是预先设置的、用于指示词与词向量之间对应关系的库。针对分词结果中的每个词,通过查找词向量库即可获得每个词的词向量。
步骤S202b:根据分词结果中各词对应的词向量,生成初始语料对应的初始语料向量。
确定每个分词结果中的各词的词向量后,针对每个分词结果,将每个分词结果中的各词对应的词向量加和,就可以生成对应的初始语料的初始语料向量。
步骤S204:确定各所述初始语料向量的向量类型。
其中,本领域技术人员可以根据实际需要采用适当的方式确定各初始语料向量的向量类型。例如,通过乘积量化(Product Quantinizer,PQ)确定各所述初始语料向量的向量类型。
其中,乘积量化主要包括两个过程:特征的分组量化过程和类别的笛卡尔积过程。假设有一个数据集,那么通过K-means算法聚类出预定数量的类别数目K,目标函数是所有样本到类中心的距离和最小,迭代计算优化目标函数,得到K个类中心和每个样本所属的类别。
下面对通过乘积量化确定各所述初始语料向量的向量类型进行详细说明如下:
将每个所述初始语料向量均切分为k个子向量,并形成k个子向量集合;通过聚类算法对各每个所述子向量集合进行聚类,且每个所述子向量集合生成m个类中心;针对各每个所述初始语料向量,确定每个初始语料向量的每个子向量所属的类中心,并根据每个初始语料向量的k个子向量所属的类中心,确定每个所述初始语料向量的向量类型。
例如,设初始语料向量的维度为d维,那么将初始语料向量切分为k个子向量,则每个子向量的维度为d/k。其中,d可以取值128,k可以取值8,则每个子向量的维度为16。
若初始语料向量的数量为s,则每个子向量集合内的子向量数量均为s。
在形成k个子向量集合时,每个初始语料向量的第一个子向量形成第一个子向量集合,每个初始语料向量的第二子向量形成第二个子向量集合,并以此类推。
通过聚类算法对各每个所述子向量集合进行聚类时,聚类算法可以是K-means算法,当然也可以是其他聚类算法。通过聚类算法聚类出的类中心数量可以根据需要确定,类中心数量越多分类精度越高,计算量也越大,反之亦然。
在本实施例中,每个所述子向量集合生成m个类中心。m可以取值100、128、200、256、300、400、500、512等。
共有k个子向量集合,将每个子向量集合进行聚类获得m个类中心(类中心的总数应为m*k个)后,针对各每个所述初始语料向量,可以通过KNN(K-NearestNeighbor)算法确定每个初始语料向量的每个子向量所属的类中心。例如,若需要确定初始语料向量的第一个子向量(记作目标子向量)所属的类中心,则从第一个子向量集合(该第一个子向量的集合是指由所有初始语料向量的第一个子向量组成的集合)中查找与目标子向量最接近的h个子向量(h的取值根据需要确定),确定h个子向量所属的类中心,从这些类中心中确定子向量数量最多的类中心作为目标子向量的类中心。如,h=7,h个子向量的类中心中,5个子向量所属的类中心均为类中心1,1个子向量所属的类中心为类中心2,1个子向量所属的类中心为类中心3,则目标子向量所属的类中心为类中心1。
当然,可以通过其他方式确定每个初始语料向量的每个子向量所属的类中心,例如,通过计算每个子向量与各类中心的距离,确定距离最近的类中心为该子向量的类中心等。
确定根据每个初始语料向量的k个子向量所属的类中心后,根据这k个类中心确定每个初始语料向量的向量类型。
例如,初始语料向量的k个子向量的类中心分别为:类中心1、类中心351、类中心600、类中心855、类中心1011、类中心1450、类中心1650、类中心2011,则该初始语料向量的向量类型可以记作[c1,c351,c600,c855,c1011,c1450,c1650,c2011]。
步骤S206:根据所述向量类型和所述初始语料向量生成具有倒排链式索引的初始语料库。
生成具有倒排链式索引的初始语料库时,将具有相同向量类型的初始语料向量及对应的向量类型作为一条倒排链索引的记录数据,根据各所述记录数据生成具有所述倒排链索引的初始语料库。
其中,所述记录数据中包括关键词以及记录内容数据。所述记录数据中的关键词为向量类型。记录数据中的记录内容数据包括具有该向量类型的初始语料向量的ID(编号)和存储地址(也可以是初始语料向量本身)等。
若该初始语料库用于问答系统,则可以将问答系统用的QA对(question-answer)中的问题(question)语料作为初始语料通过该语料库生成方法生成初始语料库。当然,在其他实施例中,该初始语料库可以用于存储其他初始语料。
步骤S208:根据获取的增量语料生成对应的增量语料向量,并根据所述增量语料向量生成具有平铺索引的增量语料库。
需要说明的是,本步骤为可选步骤。
增量语料是指初始语料之外,新增的语料,换而言之,增量语料库中的语料与初始语料库中的语料的交集为空。由于初始语料库具有倒排链式索引,在建立倒排链式索引时需要进行聚类和类中心计算,当初始语料发生变化时,初始语料库需要进行全量重新聚类和类中心计算,这会占用很多算力资源,尤其是针对语料增加频繁的情况,会造成算力浪费。为了解决这一问题,初始语料库每间隔预定时间进行一次更新,如1天,2天或一周等。在相邻两次更新之间的语料作为增量语料,这些增量语料用于生成增量语料库。通常而言,增量语料的数量远小于初始语料的数量。
获取增量语料后,通过Word2vec等算法根据增量语料生成对应的增量语料向量。之后,根据增量语料向量生成具有平铺索引的增量语料库。
其中,平铺索引的关键字可以是增量语料向量。
若在后续人机交互处理方法中使用的语料库包括增量语料库和初始语料库,则增量语料库和初始语料库构成预设的语料库。
根据本实施例的语料库生成方法,可以将初始语料和增量语料等转换为对应的初始语料向量和增量语料向量,进而根据初始语料向量生成具有倒排链式索引的初始语料库,还可以根据需要利用增量语料向量生成具有平铺索引的增量语料库。初始语料库可以极大地节省存储空间,且由于其将初始语料转化为初始语料向量,使得在后续问答系统应用过程中可以使检索出的答案的准确性更好。
本实施例的语料库生成方法可以由任意适当的具有数据处理能力的终端设备或服务器执行,终端设备包括但不限于:移动终端,如平板电脑、手机,以及台式机等。
实施例三
参照图3,示出了本发明实施例三的一种语料库生成装置的结构框图。
本实施例的语料库生成装置包括:向量类型确定模块301,用于根据获取的初始语料生成初始语料向量,并确定各所述初始语料向量的向量类型;初始语料库生成模块302,用于根据所述向量类型和所述初始语料向量生成具有倒排链式索引的初始语料库。
该语料库生成装置,生成一种具有倒排链式索引的初始语料库,由于具有倒排链式索引结构,且将具有相同向量类型的初始语料向量进行聚类存储,使得通过该语料库生成方法生成的初始语料库所占用的存储空间更小,进行检索时检索效率更高,可以提升使用该初始语料库的问答系统的响应速度。此外,由于将初始语料进行了向量化,生成了初始语料向量,在确定初始语料向量的向量类型时可以很好地体现初始语料之间的语义相似性,进而从根本上解决了现有技术中存在的无文本共现属性的初始语料之间无法体现语义相似性的问题,使得后续使用该初始语料库的问答系统的回答准确性更好。
实施例四
参照图4,示出了本发明实施例四的一种语料库生成装置的结构框图。
本实施例的语料库生成装置包括:向量类型确定模块401,用于根据获取的初始语料生成初始语料向量,并确定各所述初始语料向量的向量类型;初始语料库生成模块402,用于根据所述向量类型和所述初始语料向量生成具有倒排链式索引的初始语料库。
可选地,所述向量类型确定模块用于确定所述初始语料的分词结果,以及所述分词结果中各词对应的词向量;根据分词结果中各词对应的词向量,生成初始语料向量,并确定各所述初始语料向量的向量类型。
可选地,所述向量类型确定模块用于确定所述初始语料的分词结果,通过从预设的词向量库中查找并确定所述分词结果中各词对应的词向量;根据分词结果中各词对应的词向量,生成初始语料向量,并确定各所述初始语料向量的向量类型。
可选地,所述向量类型确定模块用于确定所述初始语料的分词结果,以及所述分词结果中各词对应的词向量,针对分词结果,将分词结果中的各词对应的词向量加和,以生成与初始语料对应的初始语料向量,并确定各所述初始语料向量的向量类型。
可选地,所述向量类型确定模块在确定各所述初始语料向量的向量类型中,通过乘积量化确定各所述初始语料向量的向量类型。
可选地,所述向量类型确定模块用于根据获取的初始语料生成初始语料向量,将每个所述初始语料向量切分为k个子向量,并形成k个子向量集合;通过聚类算法对每个所述子向量集合进行聚类,且每个所述子向量集合生成m个类中心;针对每个所述初始语料向量,确定每个初始语料向量的每个子向量所属的类中心;根据每个初始语料向量的k个子向量所属的类中心确定每个所述初始语料向量的向量类型。
可选地,所述初始语料库生成模块用于将具有相同向量类型的初始语料向量及对应的向量类型作为一条倒排链索引的记录数据;根据各所述记录数据生成具有所述倒排链索引的初始语料库。
可选地,所述装置还包括:增量语料库生成模块403,用于根据获取的增量语料生成增量语料向量,根据所述增量语料向量生成具有平铺索引的增量语料库,所述初始语料库和所述增量语料库构成预设的语料库。
该语料库生成装置,可以将初始语料和增量语料等转换为对应的初始语料向量和增量语料向量,进而根据初始语料向量生成具有倒排链式索引的初始语料库,还可以根据需要利用增量语料向量生成具有平铺索引的增量语料库。初始语料库可以极大地节省存储空间,且由于其将初始语料转化为初始语料向量,使得在后续问答系统应用过程中可以使检索出的答案的准确性更好。
实施例五
参照图5,示出了根据本发明实施例五的一种人机交互处理方法的步骤流程图。
该人机交互处理方法用于实现设备与人的智能对话。例如,聊天机器人与用户进行聊天,智能助手与用户进行交互等。该人机交互处理方法可以应用到问答系统中,作为一种问答方法使用。
本实施例的人机交互处理方法包括以下步骤:
步骤S502:根据获取的人机交互输入生成对应的人机交互输入向量。
例如,在问答系统中,用户在与设备进行问答时,可以通过文字、语音等方式输入用户问题(即人机交互输入)。设备获取该人机交互输入,其可以是通过自然语言方式表达的内容。这种情况下可以通过自然语言处理、分词处理和词向量转化等步骤将其转化为对应的人机交互输入向量。
在本实施例中,生成人机交互输入向量的过程可以与语料库生成方法中的根据初始语料生成初始语料向量的过程一致,故在此不再赘述。
步骤504:根据所述人机交互输入向量,从预设的语料库中确定n个最接近的语料向量。
在本实施例中,n为大于等于1的正整数。所述预设的语料库至少包括通过前述的语料库生成方法生成的初始语料库。
从预设的语料库中确定n个最接近的语料向量的方法可以是KNN算法。也可以是其他算法。
步骤S506:确定所述n个最接近的语料向量对应的语料的置信度,并根据所述置信度确定目标语料。
置信度用于指示n个最接近的语料向量与人机交互输入向量的相似度。
置信度可以根据关键词匹配和文本粒度相似性等参数计算确定。
目标语料为与人机交互输入向量(即用户问题向量)置信度最大的语料。
步骤S508:根据所述目标语料生成对应于所述人机交互输入的答复。
确定目标语料后,确定目标语料对应的答案数据,并根据该答案数据生成对应于人机交互输入的答复。
通常目标语料为QA对中的Question,根据该Question可以确定对应的Answer。
该人机交互处理方法将人机交互输入(用户问题数据)转化为向量,之后在预设的语料库中确定n个最接近的语料向量,这样保证在召回最接近的n个语料向量时,不会丢失语义相近而没有文本共现属性的语料向量,从而保证了召回准确性。之后,通过置信度确定目标语料向量,保证了答案的准确率。此外,由于预设的语料库包括初始语料库,而初始语料库采用倒排链式索引,因此可以保证在召回n个最接近的语料向量时的召回效率,提升效率。
本实施例的人机交互处理方法可以由任意适当的具有数据处理能力的终端设备或服务器执行,终端设备包括但不限于:移动终端,如平板电脑、手机,以及台式机等。
实施例六
参照图6,示出了根据本发明实施例六的一种人机交互处理方法的步骤流程图。
该人机交互处理方法用于实现设备与人的智能对话。例如,聊天机器人与用户进行聊天,智能助手与用户进行交互等。例如,在本实施例中,以人机交互处理方法为问答方法,人机交互输入为用户问题为例进行说明。
本实施例的人机交互处理方法包括以下步骤:
步骤S602:根据获取的用户问题数据生成对应的用户问题向量。
用户在与设备进行问答时,可以通过文字、语音等方式实现人机交互,以输入用户问题。设备获取通过自然语言方式表达的用户问题数据。
例如,用户问题数据为:“北京天气怎么样?”。
针对该用户问题数据,可以对该用户问题数据进行分词处理,获得分词,如“北京”|“天气”|“怎么样”。之后,从词向量库中查找各词对应的词向量,再将各词向量加和,得到用户问题向量。
步骤S604:根据所述用户问题向量,从预设的语料库中确定n个最接近的语料向量。
根据需要预设的语料库包括通过前述的语料库生成方法生成的初始语料库,当然,还可以包括增量语料库。
n个最接近的语料向量中的n的取值可以根据需要设定。例如,n为8、10等。n的取值还可以根据初始语料库的语料数量确定,以保证召回的准确性和召回效率。
若预设的语料库包括初始语料库,则确定n个最接近的语料向量包括:访问倒排链式索引确定初始语料库中与用户问题向量最接近的n个初始语料向量。
具体可以是:将用户问题向量切分为k个子向量,确定用户问题向量的k个子向量所属的类中心,进而根据k个子向量的类中心确定用户问题向量的向量类型,根据所述用户问题向量的向量类型、基于所述初始语料库的倒排链式索引进行查找,并确定最接近的n个所述初始语料向量。例如,k个子向量所属的类中心分别为类中心11、类中心357、类中心607、类中心825、类中心1111、类中心1451、类中心1651、类中心2021,记作[ck1,ck2……ckk]。从倒排链式索引中查找相同的向量类型,从而从具有相同的向量类型的初始语料向量中确定n个最接近的语料向量。
若具有相同的向量类型的初始语料向量的数量小于n,则直接确定具有相同的向量类型的初始语料向量为n个最接近的语料向量。
若具有相同的向量类型的初始语料向量的数量大于n,则可以通过文本粒度相似度、关键词匹配度等方式确定最接近的n个初始语料向量作为n个最接近的语料向量。
由于采用了倒排链式索引,因此可以使检索的效率更高。
若预设的语料库包括初始语料库和增量语料库,则n为大于或等于2的正整数,确定n个最接近的语料向量包括:
步骤S604a:根据所述用户问题向量,从初始语料库中确定a个最接近的初始语料向量;
其中,根据所述用户问题向量,从初始语料库中确定a个最接近的初始语料向量的过程与前述的从初始语料库中确定n个最接近的初始语料向量的过程类似,在此不再赘述。
步骤S604b:根据所述用户问题向量,从增量语料库中确定b个最接近的增量语料向量。
其中,a为大于或等于1的正整数,b为大于或等于1的正整数,a+b=n。
根据所述用户问题向量,从增量语料库中确定b个最接近的增量语料向量具体可以是:根据所述用户问题向量查找所述增量语料库的平铺索引,以确定最接近的b个所述增量语料向量。例如,逐个计算用户问题向量与各个增量语料向量的距离,以确定最接近的b个所述增量语料向量。
步骤S606:确定所述n个最接近的语料向量对应的语料的置信度,并根据所述置信度确定目标语料。
在一种可行方式中,根据所述n个最接近的语料向量,确定各所述最接近的语料向量对应的语料共计n个所述语料;分别计算n个所述语料与所述用户问题数据的文本粒度相似性和关键词匹配度;根据文本粒度相似性和关键词匹配度确定n个所述语料的置信度;确定置信度最高的所述语料为目标语料。
其中,文本粒度相似性可以通过计算哈希值、计算Jaccard相似度或通过NLP算法等方式计算获得。获得文本粒度相似性、关键词匹配度等参数之后,再综合各个参数的权重可以确定该语料的置信度。
步骤S608:根据所述目标语料生成对应于所述用户问题数据的答复。
确定目标语料后,判断目标语料的置信度是否大于或等于回答阈值。回答阈值可以根据需要确定,如80%、85%、90%等。
若大于或等于回答阈值,则对应查找该目标语料对应的答案数据,可以直接将该答案数据作为对应于所述用户问题数据的答案数据。也可以通过生成自然语言的方式对该答案数据进行处理,生成对应于所述用户问题数据的答案数据。
若小于回答阈值,则直接生成空的答案数据,以指示不回答,或获取进一步信息。
表1
表1针对同一用户问题数据,例举了现有技术中采用文本召回方式召回的答案、本申请的采用语义向量召回方式召回的答案。
例子1中,能够将原本文本不相关,但是语义相似的QA对召回,并最终回答用户的问题。
例子2中,基于文本的召回方式错误地将语义完全不一致的QA对触发出来,影响了问答系统的用户体验,而采用语义召回方式不会发生这种错误。
例子3中,两种方式都有问答结果,但从回答效果上看,语义召回的方式的答案准确性要远远优于基于文本的召回方式。
该人机交互处理方法的预设的语料库是通过将QA对中的问题(初始语料)进行切词,获取各词的词向量之后,将对应的词向量加和生成问题对应的向量(初始语料向量)。之后通过乘积量化方式根据初始语料向量生成倒排链式索引,作为向量召回的语料库。针对用户问题向量,通过KNN算法检索出距离最近的Top-K个初始语料向量,并将其对应的QA对作为召回结果。由于语料库的索引是倒排链式索引,所以保证了检索效率。
针对检索出距离最近的Top-K个初始语料向量,通过文本粒度的相似性计算以及重要关键词的匹配度确定其置信度,并通过特定阈值的方式判断是否回答用户的问题,以及对应的答案数据。
这种通过语义向量索引作为问答系统的召回模块,相比于传统的基于文本的召回,解决了很多语义一致但文本不同的数据无法召回,导致优质答案在召回阶段就丢失的问题。
实施例七
参照图7,示出了本发明实施例七的一种问答装置的结构框图。
本实施例的问答装置包括:问题向量获取模块701,用于根据获取的人机交互输入生成对应的人机交互输入向量;语料查找模块702,用于根据所述人机交互输入向量,从预设的语料库中确定n个最接近的语料向量,其中,n为大于等于1的正整数,其中,所述预设的语料库至少包括通过前述的方法生成的初始语料库;目标语料确定模块703,用于确定所述n个最接近的语料向量对应的语料的置信度,并根据所述置信度确定目标语料;答案数据生成模块704,用于根据所述目标语料生成对应于所述人机交互输入数据的答复。
该问答装置将人机交互输入数据转化为人机交互输入向量,之后在预设的语料库中确定n个最接近的语料向量,这样保证在召回最接近的n个语料向量时,不会丢失语义相近而没有文本共现属性的语料向量,从而保证了召回准确性。之后,通过置信度确定目标语料向量,保证了答案的准确率。此外,由于预设的语料库包括初始语料库,而初始语料库采用倒排链式索引,因此可以保证召回n个最接近的语料向量时的召回效率,提升效率。
实施例八
参照图8,示出了本发明实施例八的一种问答装置的结构框图。
本实施例的问答装置包括:问题向量获取模块801,用于根据获取的人机交互输入生成对应的人机交互输入向量;语料查找模块802,用于根据所述人机交互输入向量,从预设的语料库中确定n个最接近的语料向量,其中,n为大于等于1的正整数,其中,所述预设的语料库至少包括通过前述的方法生成的初始语料库;目标语料确定模块803,用于确定所述n个最接近的语料向量对应的语料的置信度,并根据所述置信度确定目标语料;答案数据生成模块804,用于根据所述目标语料生成对应于所述人机交互输入数据的答案数据。
可选地,若所述预设的语料库还包括所述增量语料库,则n为大于或等于2的正整数,所述语料查找模块802包括:第一查找模块8021,用于根据所述人机交互输入向量,从初始语料库中确定a个最接近的初始语料向量;第二查找模块8022,用于根据所述人机交互输入向量,从增量语料库中确定b个最接近的增量语料向量,其中,a为大于或等于1的正整数,b为大于或等于1的正整数,a+b=n。
可选地,所述第一查找模块8021用于将所述人机交互输入向量切分为k个子向量;通过聚类算法确定所述人机交互输入向量的k个子向量所属的类中心,并根据k个子向量的类中心确定所述人机交互输入向量的向量类型;根据所述人机交互输入向量的向量类型查找所述初始语料库的倒排链式索引,并确定最接近的a个所述初始语料向量。
可选地,所述第二查找模块8022用于根据所述人机交互输入向量查找所述增量语料库的平铺索引,以确定最接近的b个所述增量语料向量。
可选地,所述目标语料确定模块803包括:语料获取模块8031,用于根据所述n个最接近的语料向量,确定各所述最接近的语料向量对应的语料共计n个所述语料;计算模块8032,用于分别计算n个所述语料与所述人机交互输入数据的文本粒度相似性和关键词匹配度;置信度确定模块8033,用于根据文本粒度相似性和关键词匹配度确定n个所述语料的置信度;语料确定模块8034,用于确定置信度最高的所述语料为目标语料。
该问答装置将人机交互输入数据转化为人机交互输入向量,之后在预设的语料库中确定n个最接近的语料向量,这样保证在召回最接近的n个语料向量时,不会丢失语义相近而没有文本共现属性的语料向量,从而保证了召回准确性。之后,通过置信度确定目标语料向量,保证了答案的准确率。此外,由于预设的语料库包括初始语料库,而初始语料库采用倒排链式索引,因此可以保证召回n个最接近的语料向量时的召回效率,提升效率。
实施例九
参照图9,示出了根据本发明实施例九的一种电子设备的结构示意图。本发明具体实施例并不对电子设备的具体实现做限定。
如图9所示,该电子设备可以包括:处理器(processor)902、通信接口(Communications Interface)904、存储器(memory)906、以及通信总线908。
其中:
处理器902、通信接口904、以及存储器906通过通信总线908完成相互间的通信。
通信接口904,用于与其它电子设备进行通信。
处理器902,用于执行程序910,具体可以执行上述评论方法实施例中的相关步骤。
具体地,程序910可以包括程序代码,该程序代码包括计算机操作指令。
处理器902可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器906,用于存放程序910。存储器906可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
程序910具体可以用于使得处理器902执行以下操作:根据获取的初始语料生成初始语料向量,并确定各所述初始语料向量的向量类型;根据所述向量类型和所述初始语料向量生成具有倒排链式索引的初始语料库。
在一种可选的实施方式中,程序910还用于使得处理器902在根据获取的初始语料生成初始语料向量时,确定所述初始语料的分词结果,以及所述分词结果中各词对应的词向量;根据分词结果中各词对应的词向量,生成初始语料向量。
在一种可选的实施方式中,程序910还用于使得处理器902在确定所述分词结果中各词对应的词向量中,通过从预设的词向量库中查找并确定所述分词结果中各词对应的词向量。
在一种可选的实施方式中,程序910还用于使得处理器902在根据分词结果中各词对应的词向量,生成初始语料向量时,针对分词结果,将分词结果中的各词对应的词向量加和,以生成与初始语料对应的初始语料向量。
在一种可选的实施方式中,程序910还用于使得处理器902在确定各所述初始语料向量的向量类型中,通过乘积量化确定各所述初始语料向量的向量类型。
在一种可选的实施方式中,程序910还用于使得处理器902在所述通过乘积量化确定各所述初始语料向量的向量类型时,将每个所述初始语料向量切分为k个子向量,并形成k个子向量集合;通过聚类算法对每个所述子向量集合进行聚类,且每个所述子向量集合生成m个类中心;针对每个所述初始语料向量,确定每个初始语料向量的每个子向量所属的类中心;根据每个初始语料向量的k个子向量所属的类中心确定每个所述初始语料向量的向量类型。
在一种可选的实施方式中,程序910还用于使得处理器902在根据所述向量类型和所述初始语料向量生成具有倒排链式索引的初始语料库时,将具有相同向量类型的初始语料向量及对应的向量类型作为一条倒排链索引的记录数据;根据各所述记录数据生成具有所述倒排链索引的初始语料库。
在一种可选的实施方式中,程序910还用于使得处理器902根据获取的增量语料生成增量语料向量,根据所述增量语料向量生成具有平铺索引的增量语料库,所述初始语料库和所述增量语料库构成预设的语料库。
或者,程序910具体可以用于使得处理器902执行以下操作:根据获取的人机交互输入数据生成对应的人机交互输入向量;根据所述人机交互输入向量,从预设的语料库中确定n个最接近的语料向量,其中,n为大于等于1的正整数,其中,所述预设的语料库至少包括通过前述的方法生成的初始语料库;确定所述n个最接近的语料向量对应的语料的置信度,并根据所述置信度确定目标语料;根据所述目标语料生成对应于所述人机交互输入数据的答案数据。
在一种可选的实施方式中,程序910还用于使得处理器902若所述预设的语料库还包括所述增量语料库,且n为大于或等于2的正整数,则在所述根据所述人机交互输入向量,从预设的语料库中确定n个最接近的语料向量时,根据所述人机交互输入向量,从初始语料库中确定a个最接近的初始语料向量;根据所述人机交互输入向量,从增量语料库中确定b个最接近的增量语料向量,其中,a为大于或等于1的正整数,b为大于或等于1的正整数,a+b=n。
在一种可选的实施方式中,程序910还用于使得处理器902在根据所述人机交互输入向量,从初始语料库中确定a个最接近的初始语料向量时,将所述人机交互输入向量切分为k个子向量;通过聚类算法确定所述人机交互输入向量的k个子向量所属的类中心,并根据k个子向量的类中心确定所述人机交互输入向量的向量类型;根据所述人机交互输入向量的向量类型查找所述初始语料库的倒排链式索引,并确定最接近的a个所述初始语料向量。
在一种可选的实施方式中,程序910还用于使得处理器902在根据所述人机交互输入向量,从增量语料库中确定b个最接近的增量语料向量时,根据所述人机交互输入向量查找所述增量语料库的平铺索引,以确定最接近的b个所述增量语料向量。
在一种可选的实施方式中,程序910还用于使得处理器902在确定所述n个最接近的语料向量对应的语料的置信度,并根据所述置信度确定目标语料时,根据所述n个最接近的语料向量,确定各所述最接近的语料向量对应的语料共计n个所述语料;分别计算n个所述语料与所述人机交互输入数据的文本粒度相似性和关键词匹配度;根据文本粒度相似性和关键词匹配度确定n个所述语料的置信度;确定置信度最高的所述语料为目标语料。
通过本实施例的电子设备,使得能够生成一种具有倒排链式索引的初始语料库,由于具有倒排链式索引结构,且将具有相同向量类型的初始语料向量进行聚类存储,使得通过该语料库生成方法生成的初始语料库所占用的存储空间更小,进行检索时检索效率更高,可以提升使用该初始语料库的问答系统的响应速度。此外,由于将初始语料进行了向量化,生成了初始语料向量,在确定初始语料向量的向量类型时可以很好地体现初始语料之间的语义相似性,进而从根本上解决了现有技术中存在的无文本共现属性的初始语料之间无法体现语义相似性的问题,使得后续使用该初始语料库的问答系统的回答准确性更好。
通过本实施例的电子设备,使得将人机交互输入数据转化为人机交互输入向量,之后利用KNN算法在预设的语料库中确定n个最接近的语料向量,这样保证在召回最接近的n个语料向量时,不会丢失语义相近而没有文本共现属性的语料向量,从而保证了召回准确性。之后,通过置信度确定目标语料向量,保证了答案的准确率。此外,由于预设的语料库包括初始语料库,而初始语料库采用倒排链式索引,因此可以保证在通过KNN算法召回n个最接近的语料向量时的召回效率,提升效率。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的语料库生成或人机交互处理方法。此外,当通用计算机访问用于实现在此示出的语料库生成或人机交互处理方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的语料库生成或人机交互处理方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。
Claims (27)
1.一种语料库生成方法,其特征在于,包括:
根据获取的初始语料生成初始语料向量,并确定所述初始语料向量的向量类型;
根据所述向量类型和所述初始语料向量生成具有倒排链式索引的初始语料库。
2.根据权利要求1所述的方法,其特征在于,所述根据获取的初始语料生成初始语料向量,包括:
确定所述初始语料的分词结果,以及所述分词结果中各词对应的词向量;
根据分词结果中各词对应的词向量,生成初始语料向量。
3.根据权利要求2所述的方法,其特征在于,所述确定所述分词结果中各词对应的词向量包括:通过从预设的词向量库中查找并确定所述分词结果中各词对应的词向量。
4.根据权利要求2所述的方法,其特征在于,根据分词结果中各词对应的词向量,生成初始语料向量,包括:
将分词结果中的各词对应的词向量加和,以生成初始语料向量。
5.根据权利要求1-4中任一项所述的方法,其特征在于,确定各所述初始语料向量的向量类型包括:通过乘积量化确定所述初始语料向量的向量类型。
6.根据权利要求5所述的方法,其特征在于,若存在多个初始语料向量,则所述通过乘积量化确定所述初始语料向量的向量类型,包括:
将每个所述初始语料向量均切分为k个子向量,并形成k个子向量集合,其中,k为大于或等于1的正整数;
通过聚类算法对每个所述子向量集合进行聚类,且每个所述子向量集合生成m个类中心,其中,m为大于或等于1的正整数;
确定每个初始语料向量的每个子向量所属的类中心;
根据每个初始语料向量的k个子向量所属的类中心确定每个所述初始语料向量的向量类型。
7.根据权利要求6所述的方法,其特征在于,根据所述向量类型和所述初始语料向量生成具有倒排链式索引的初始语料库,包括:
将具有相同向量类型的初始语料向量及对应的向量类型作为一条倒排链索引的记录数据;
根据各所述记录数据生成具有所述倒排链索引的初始语料库。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据获取的增量语料生成增量语料向量,根据所述增量语料向量生成具有平铺索引的增量语料库,所述增量语料库和所述初始语料库向量形成预设的语料库。
9.一种语料库生成装置,其特征在于,包括:
向量类型确定模块,用于根据获取的初始语料生成初始语料向量,并确定各所述初始语料向量的向量类型;
初始语料库生成模块,用于根据所述向量类型和所述初始语料向量生成具有倒排链式索引的初始语料库。
10.根据权利要求9所述的装置,其特征在于,所述向量类型确定模块用于确定所述初始语料的分词结果,以及所述分词结果中各词对应的词向量;根据分词结果中各词对应的词向量,生成初始语料向量,并确定各所述初始语料向量的向量类型。
11.根据权利要求10所述的装置,其特征在于,所述向量类型确定模块用于确定所述初始语料的分词结果,通过从预设的词向量库中查找并确定所述分词结果中各词对应的词向量;根据分词结果中各词对应的词向量,生成初始语料向量,并确定各所述初始语料向量的向量类型。
12.根据权利要求10所述的装置,其特征在于,所述向量类型确定模块用于确定所述初始语料的分词结果,以及所述分词结果中各词对应的词向量,将分词结果中的各词对应的词向量加和,以生成初始语料向量,并确定各所述初始语料向量的向量类型。
13.根据权利要求9-12中任一项所述的装置,其特征在于,所述向量类型确定模块在确定各所述初始语料向量的向量类型中,通过乘积量化确定所述初始语料向量的向量类型。
14.根据权利要求13所述的装置,其特征在于,若存在多个初始语料向量,则所述向量类型确定模块用于根据获取的初始语料生成初始语料向量,将每个所述初始语料向量均切分为k个子向量,并形成k个子向量集合,其中,k为大于或等于1的正整数;通过聚类算法对每个所述子向量集合进行聚类,且每个所述子向量集合生成m个类中心,其中,m为大于或等于1的正整数;确定每个初始语料向量的每个子向量所属的类中心;根据每个初始语料向量的k个子向量所属的类中心确定每个所述初始语料向量的向量类型。
15.根据权利要求14所述的装置,其特征在于,所述初始语料库生成模块用于将具有相同向量类型的初始语料向量及对应的向量类型作为一条倒排链索引的记录数据;根据各所述记录数据生成具有所述倒排链索引的初始语料库。
16.根据权利要求9所述的装置,其特征在于,所述装置还包括:
增量语料库生成模块,用于根据获取的增量语料生成增量语料向量,根据所述增量语料向量生成具有平铺索引的增量语料库,所述增量语料库和所述初始语料库形成预设的语料库。
17.一种人机交互处理方法,其特征在于,包括:
根据获取的人机交互输入生成对应的人机交互输入向量;
根据所述人机交互输入向量,从预设的语料库中确定n个最接近的语料向量,其中,n为大于等于1的正整数,其中,所述预设的语料库至少包括通过权利要求1-7中任一项的所述的方法生成的初始语料库;
确定所述n个最接近的语料向量对应的语料的置信度,并根据所述置信度确定目标语料;
根据所述目标语料生成对应于所述人机交互输入的答复。
18.根据权利要求17所述的方法,其特征在于,若所述预设的语料库还包括根据权利要求8所述的方法生成的所述增量语料库,则n为大于或等于2的正整数,所述根据所述人机交互输入向量,从预设的语料库中确定n个最接近的语料向量,包括:
根据所述人机交互输入向量,从初始语料库中确定a个最接近的初始语料向量;
根据所述人机交互输入向量,从增量语料库中确定b个最接近的增量语料向量,其中,a、b均为大于或等于1的整数,且a+b=n。
19.根据权利要求18所述的方法,其特征在于,根据所述人机交互输入向量,从初始语料库中确定a个最接近的初始语料向量,包括:
将所述人机交互输入向量切分为k个子向量;
通过聚类算法确定所述人机交互输入向量的k个子向量所属的类中心,并根据k个子向量的类中心确定所述人机交互输入向量的向量类型;
根据所述人机交互输入向量的向量类型查找所述初始语料库的倒排链式索引,并确定最接近的a个所述初始语料向量。
20.根据权利要求18所述的方法,其特征在于,根据所述人机交互输入向量,从增量语料库中确定b个最接近的增量语料向量,包括:
根据所述人机交互输入向量查找所述增量语料库的平铺索引,以确定最接近的b个所述增量语料向量。
21.根据权利要求17所述的方法,其特征在于,确定所述n个最接近的语料向量对应的语料的置信度,并根据所述置信度确定目标语料,包括:
根据所述n个最接近的语料向量,确定各所述最接近的语料向量对应的语料共计n个所述语料;
分别计算n个所述最接近的语料与所述人机交互输入的文本粒度相似性和关键词匹配度;
根据文本粒度相似性和关键词匹配度确定n个所述最接近的语料的置信度;
确定置信度最高的所述语料为目标语料。
22.一种人机交互处理装置,其特征在于,包括:
问题向量获取模块,用于根据获取的人机交互输入生成对应的人机交互输入向量;
语料查找模块,用于根据所述人机交互输入向量,从预设的语料库中确定n个最接近的语料向量,其中,n为大于等于1的正整数,其中,所述预设的语料库至少包括通过权利要求1-8中任一项的所述的方法生成的初始语料库;
目标语料确定模块,用于确定所述n个最接近的语料向量对应的语料的置信度,并根据所述置信度确定目标语料;
答复生成模块,用于根据所述目标语料生成对应于所述人机交互输入的答复。
23.根据权利要求22所述的装置,其特征在于,若所述预设的语料库还包括所述增量语料库,则n为大于或等于2的正整数,所述语料查找模块包括:
第一查找模块,用于根据所述人机交互输入向量,从初始语料库中确定a个最接近的初始语料向量;
第二查找模块,用于根据所述人机交互输入向量,从增量语料库中确定b个最接近的增量语料向量,其中,a、b均为大于或等于1的整数,且a+b=n。
24.根据权利要求23所述的装置,其特征在于,所述第一查找模块用于将所述人机交互输入向量切分为k个子向量;通过聚类算法确定所述人机交互输入向量的k个子向量所属的类中心,并根据k个子向量的类中心确定所述人机交互输入向量的向量类型;根据所述人机交互输入向量的向量类型查找所述初始语料库的倒排链式索引,并确定最接近的a个所述初始语料向量。
25.根据权利要求23所述的装置,其特征在于,所述第二查找模块用于根据所述人机交互输入向量查找所述增量语料库的平铺索引,以确定最接近的b个所述增量语料向量。
26.根据权利要求22所述的装置,其特征在于,所述目标语料确定模块包括:
语料获取模块,用于根据所述n个最接近的语料向量,确定各所述最接近的语料向量对应的语料共计n个所述语料;
计算模块,用于分别计算n个所述语料与所述人机交互输入的文本粒度相似性和关键词匹配度;
置信度确定模块,用于根据文本粒度相似性和关键词匹配度确定n个所述语料的置信度;
语料确定模块,用于确定置信度最高的所述语料为目标语料。
27.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-8中任一项所述的语料库生成方法对应的操作;
或者,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求17-21中任一项所述的人机交互处理方法对应的操作。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810712333.5A CN110727769B (zh) | 2018-06-29 | 2018-06-29 | 语料库生成方法及装置、人机交互处理方法及装置 |
TW108110024A TW202001621A (zh) | 2018-06-29 | 2019-03-22 | 語料庫產生方法及裝置、人機互動處理方法及裝置 |
PCT/US2019/039942 WO2020006488A1 (en) | 2018-06-29 | 2019-06-28 | Corpus generating method and apparatus, and human-machine interaction processing method and apparatus |
US16/457,372 US11120214B2 (en) | 2018-06-29 | 2019-06-28 | Corpus generating method and apparatus, and human-machine interaction processing method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810712333.5A CN110727769B (zh) | 2018-06-29 | 2018-06-29 | 语料库生成方法及装置、人机交互处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110727769A true CN110727769A (zh) | 2020-01-24 |
CN110727769B CN110727769B (zh) | 2024-04-19 |
Family
ID=68987622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810712333.5A Active CN110727769B (zh) | 2018-06-29 | 2018-06-29 | 语料库生成方法及装置、人机交互处理方法及装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11120214B2 (zh) |
CN (1) | CN110727769B (zh) |
TW (1) | TW202001621A (zh) |
WO (1) | WO2020006488A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652433A (zh) * | 2020-06-02 | 2020-09-11 | 泰康保险集团股份有限公司 | 养老费用测算装置 |
CN116610776A (zh) * | 2022-12-30 | 2023-08-18 | 摩斯智联科技有限公司 | 车联网智能问答系统 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI788747B (zh) * | 2020-12-24 | 2023-01-01 | 國立臺灣師範大學 | 中文字型推薦設備、系統及其方法 |
CN112992137B (zh) * | 2021-01-29 | 2022-12-06 | 青岛海尔科技有限公司 | 语音交互方法和装置、存储介质及电子装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110125734A1 (en) * | 2009-11-23 | 2011-05-26 | International Business Machines Corporation | Questions and answers generation |
CN103902697A (zh) * | 2014-03-28 | 2014-07-02 | 百度在线网络技术(北京)有限公司 | 组合搜索方法、客户端和服务器 |
CN105955965A (zh) * | 2016-06-21 | 2016-09-21 | 上海智臻智能网络科技股份有限公司 | 问句信息处理方法及装置 |
CN106484664A (zh) * | 2016-10-21 | 2017-03-08 | 竹间智能科技(上海)有限公司 | 一种短文本间相似度计算方法 |
CN107133305A (zh) * | 2017-04-28 | 2017-09-05 | 上海斐讯数据通信技术有限公司 | 一种聊天机器人知识库自动构建装置及其方法 |
US20170262449A1 (en) * | 2016-03-12 | 2017-09-14 | Wipro Limited | System and method for generating an optimized result set |
CN107665261A (zh) * | 2017-10-25 | 2018-02-06 | 北京奇虎科技有限公司 | 视频查重的方法及装置 |
US20180101570A1 (en) * | 2016-10-11 | 2018-04-12 | Google Inc. | Hierarchical quantization for fast inner product search |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5325298A (en) | 1990-11-07 | 1994-06-28 | Hnc, Inc. | Methods for generating or revising context vectors for a plurality of word stems |
US6137911A (en) | 1997-06-16 | 2000-10-24 | The Dialog Corporation Plc | Test classification system and method |
WO2000046701A1 (en) | 1999-02-08 | 2000-08-10 | Huntsman Ici Chemicals Llc | Method for retrieving semantically distant analogies |
WO2003060766A1 (en) | 2002-01-16 | 2003-07-24 | Elucidon Ab | Information data retrieval, where the data is organized in terms, documents and document corpora |
US7599916B2 (en) * | 2005-04-20 | 2009-10-06 | Microsoft Corporation | System and method for personalized search |
US9183203B1 (en) | 2009-07-01 | 2015-11-10 | Quantifind, Inc. | Generalized data mining and analytics apparatuses, methods and systems |
US8719257B2 (en) * | 2011-02-16 | 2014-05-06 | Symantec Corporation | Methods and systems for automatically generating semantic/concept searches |
CN103279556B (zh) | 2013-06-09 | 2016-08-24 | 南方报业传媒集团 | 基于自适应子空间学习的迭代文本聚类方法 |
CN106104521B (zh) | 2014-01-10 | 2019-10-25 | 克鲁伊普有限责任公司 | 用于自动检测文本中的情感的系统、设备和方法 |
US20150356088A1 (en) * | 2014-06-06 | 2015-12-10 | Microsoft Corporation | Tile-based geocoder |
US9703858B2 (en) | 2014-07-14 | 2017-07-11 | International Business Machines Corporation | Inverted table for storing and querying conceptual indices |
US9940100B2 (en) * | 2014-08-29 | 2018-04-10 | Adobe Systems Incorporated | Shortlist computation for searching high-dimensional spaces |
US9792275B2 (en) | 2015-03-06 | 2017-10-17 | Dell Products Lp | Natural language processing (NLP) interfacing with devices |
US9761220B2 (en) | 2015-05-13 | 2017-09-12 | Microsoft Technology Licensing, Llc | Language modeling based on spoken and unspeakable corpuses |
US10255323B1 (en) * | 2015-08-31 | 2019-04-09 | Google Llc | Quantization-based fast inner product search |
CN105224624A (zh) * | 2015-09-22 | 2016-01-06 | 广州神马移动信息科技有限公司 | 一种实现倒排链快速归并的方法和装置 |
US20180341805A1 (en) * | 2015-11-06 | 2018-11-29 | Thomson Licensing | Method and Apparatus for Generating Codebooks for Efficient Search |
CN107767195A (zh) * | 2016-08-16 | 2018-03-06 | 阿里巴巴集团控股有限公司 | 描述信息的展示系统和展示、生成方法及电子设备 |
US10360507B2 (en) | 2016-09-22 | 2019-07-23 | nference, inc. | Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities |
US10643183B2 (en) | 2016-10-18 | 2020-05-05 | Google Llc | Search engine |
US10558756B2 (en) | 2016-11-03 | 2020-02-11 | International Business Machines Corporation | Unsupervised information extraction dictionary creation |
KR101958939B1 (ko) * | 2017-03-30 | 2019-03-15 | 오드컨셉 주식회사 | 벡터 양자화의 혼합에 기초한 부호화 방법 및 이를 이용한 최근접 이웃 검색(nns) 방법 |
US11093561B2 (en) * | 2017-12-11 | 2021-08-17 | Facebook, Inc. | Fast indexing with graphs and compact regression codes on online social networks |
CN108038105B (zh) | 2017-12-22 | 2020-06-05 | 中科鼎富(北京)科技发展有限公司 | 一种对未登录词生成仿真词向量的方法及装置 |
CN108845986A (zh) | 2018-05-30 | 2018-11-20 | 中兴通讯股份有限公司 | 一种情感分析方法、设备及系统、计算机可读存储介质 |
CN108763217A (zh) | 2018-06-01 | 2018-11-06 | 北京玄科技有限公司 | 基于多语义的集外词处理方法、智能问答方法及装置 |
US11449484B2 (en) * | 2018-06-25 | 2022-09-20 | Ebay Inc. | Data indexing and searching using permutation indexes |
-
2018
- 2018-06-29 CN CN201810712333.5A patent/CN110727769B/zh active Active
-
2019
- 2019-03-22 TW TW108110024A patent/TW202001621A/zh unknown
- 2019-06-28 WO PCT/US2019/039942 patent/WO2020006488A1/en active Application Filing
- 2019-06-28 US US16/457,372 patent/US11120214B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110125734A1 (en) * | 2009-11-23 | 2011-05-26 | International Business Machines Corporation | Questions and answers generation |
CN103902697A (zh) * | 2014-03-28 | 2014-07-02 | 百度在线网络技术(北京)有限公司 | 组合搜索方法、客户端和服务器 |
US20170262449A1 (en) * | 2016-03-12 | 2017-09-14 | Wipro Limited | System and method for generating an optimized result set |
CN105955965A (zh) * | 2016-06-21 | 2016-09-21 | 上海智臻智能网络科技股份有限公司 | 问句信息处理方法及装置 |
US20180101570A1 (en) * | 2016-10-11 | 2018-04-12 | Google Inc. | Hierarchical quantization for fast inner product search |
CN106484664A (zh) * | 2016-10-21 | 2017-03-08 | 竹间智能科技(上海)有限公司 | 一种短文本间相似度计算方法 |
CN107133305A (zh) * | 2017-04-28 | 2017-09-05 | 上海斐讯数据通信技术有限公司 | 一种聊天机器人知识库自动构建装置及其方法 |
CN107665261A (zh) * | 2017-10-25 | 2018-02-06 | 北京奇虎科技有限公司 | 视频查重的方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652433A (zh) * | 2020-06-02 | 2020-09-11 | 泰康保险集团股份有限公司 | 养老费用测算装置 |
CN111652433B (zh) * | 2020-06-02 | 2023-04-18 | 泰康保险集团股份有限公司 | 养老费用测算装置 |
CN116610776A (zh) * | 2022-12-30 | 2023-08-18 | 摩斯智联科技有限公司 | 车联网智能问答系统 |
Also Published As
Publication number | Publication date |
---|---|
US20200004786A1 (en) | 2020-01-02 |
CN110727769B (zh) | 2024-04-19 |
WO2020006488A1 (en) | 2020-01-02 |
US11120214B2 (en) | 2021-09-14 |
TW202001621A (zh) | 2020-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110647614B (zh) | 智能问答方法、装置、介质及电子设备 | |
CN109101479B (zh) | 一种用于中文语句的聚类方法及装置 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN110096567B (zh) | 基于qa知识库推理的多轮对话回复选择方法、系统 | |
CN109670163B (zh) | 信息识别方法、信息推荐方法、模板构建方法及计算设备 | |
CN111259127B (zh) | 一种基于迁移学习句向量的长文本答案选择方法 | |
TW202009749A (zh) | 人機對話方法、裝置、電子設備及電腦可讀媒體 | |
CN116775847B (zh) | 一种基于知识图谱和大语言模型的问答方法和系统 | |
CN110727769B (zh) | 语料库生成方法及装置、人机交互处理方法及装置 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN110795541B (zh) | 文本查询方法、装置、电子设备及计算机可读存储介质 | |
CN111078837A (zh) | 智能问答信息处理方法、电子设备及计算机可读存储介质 | |
CN114861889B (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
CN111339248A (zh) | 数据属性填充方法、装置、设备及计算机可读存储介质 | |
CN115203421A (zh) | 一种长文本的标签生成方法、装置、设备及存储介质 | |
CN114003682A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN116882372A (zh) | 文本生成方法、装置、电子设备以及存储介质 | |
CN117076636A (zh) | 一种智能客服的信息查询方法、系统和设备 | |
CN117112595A (zh) | 一种信息查询方法、装置、电子设备及存储介质 | |
CN109684357B (zh) | 信息处理方法及装置、存储介质、终端 | |
CN116108181A (zh) | 客户信息的处理方法、装置及电子设备 | |
CN113505196A (zh) | 基于词性的文本检索方法、装置、电子设备及存储介质 | |
CN113761104A (zh) | 知识图谱中实体关系的检测方法、装置和电子设备 | |
CN112182159A (zh) | 一种基于语义表示的个性化检索式对话方法和系统 | |
CN114925185B (zh) | 交互方法、模型的训练方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200526 Address after: 310051 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province Applicant after: Alibaba (China) Co.,Ltd. Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 13 layer self unit 01 Applicant before: UC MOBILE (CHINA) Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |