CN111353298A - 字符序列生成方法、装置、设备及计算机可读存储介质 - Google Patents
字符序列生成方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111353298A CN111353298A CN202010095894.2A CN202010095894A CN111353298A CN 111353298 A CN111353298 A CN 111353298A CN 202010095894 A CN202010095894 A CN 202010095894A CN 111353298 A CN111353298 A CN 111353298A
- Authority
- CN
- China
- Prior art keywords
- sequence
- character
- attribute
- node
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000004458 analytical method Methods 0.000 claims abstract description 37
- 239000013598 vector Substances 0.000 claims description 142
- 230000011218 segmentation Effects 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 19
- 238000002372 labelling Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 8
- 239000003607 modifier Substances 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 31
- 230000000694 effects Effects 0.000 description 11
- 238000000605 extraction Methods 0.000 description 6
- 239000003086 colorant Substances 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 229920000742 Cotton Polymers 0.000 description 3
- 239000008267 milk Substances 0.000 description 3
- 210000004080 milk Anatomy 0.000 description 3
- 235000013336 milk Nutrition 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000000843 powder Substances 0.000 description 3
- 238000002910 structure generation Methods 0.000 description 3
- 229920000433 Lyocell Polymers 0.000 description 2
- 229920002334 Spandex Polymers 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004759 spandex Substances 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 241000272814 Anser sp. Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241000628997 Flos Species 0.000 description 1
- 244000241872 Lycium chinense Species 0.000 description 1
- 235000015468 Lycium chinense Nutrition 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 229920000728 polyester Polymers 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0613—Third-party assisted
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Machine Translation (AREA)
Abstract
本公开的实施方式提供了一种字符序列生成方法、字符序列生成装置、电子设备以及计算机可读存储介质,涉及自然语言处理技术领域。该方法包括:当检测到字符序列时,识别字符序列中的关键词序列;确定节点关系图中与关键词序列对应的目标节点,节点关系图用于通过节点连接关系表征关键词之间的关联关系;根据对字符序列间字符依存关系的分析,生成用于表示字符依存关系的语义结构;根据语义结构、目标节点以及节点关系图确定序列生成元素,并根据序列生成元素生成与字符序列相匹配的目标字符序列。可见,实施本公开实施例能够用于解决消息回复不及时以及人工成本较高的问题。
Description
技术领域
本公开的实施方式涉及自然语言处理技术领域,更具体地,本公开的实施方式涉及字符序列生成方法、字符序列生成装置、电子设备以及计算机可读存储介质。
背景技术
随着电商平台的不断发展,用户可以根据需要进行线上购物,但是,由于线上购物的局限性,用户根据商品图片或文字描述获取的商品信息较线下购物而言有限,因此,用户通常还需要与客服进行相应的沟通,以更全面地了解该商品。一般来说,不同的平台商家需要配备一定数量的客服人员对用户的问题进行回复,但是,在应对多个用户同时进行问答时,客服人员的回复速度有限,这样会造成消息回复不及时的问题。并且,通过人工回复也会存在人工成本较高的问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此,不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
基于上述问题,发明人进行了相应的思考,做出了有针对性的改进,提供了字符序列生成方法、字符序列生成装置、电子设备以及计算机可读存储介质,用于解决消息回复不及时以及人工成本较高的问题。
根据本公开实施例的第一方面,公开了一种字符序列生成方法,包括:
当检测到字符序列时,识别字符序列中的关键词序列;
确定节点关系图中与关键词序列对应的目标节点,节点关系图用于通过节点连接关系表征关键词之间的关联关系;
根据对字符序列间字符依存关系的分析,生成用于表示字符依存关系的语义结构;
根据语义结构、目标节点以及节点关系图确定序列生成元素,并根据序列生成元素生成与字符序列相匹配的目标字符序列。
在一个实施例中,基于前述方案,识别字符序列中的关键词序列,包括:
计算字符序列对应的特征向量,并根据特征向量获取字符序列对应的语义内容;
根据语义内容确定字符序列的所属类型;
若所属类型为咨询类,则识别字符序列中的关键词序列;其中,咨询类包括商品信息咨询以及促销信息咨询中至少一种。
在一个实施例中,基于前述方案,识别字符序列中的关键词序列,包括:
对字符序列进行分词处理,得到多个分词,并对多个分词进行词型标注;
根据预标注的样本分词训练词型识别模型,并根据训练后的词型识别模型识别词型标注结果中的关键词序列;其中,关键词序列包括实体词、属性名词、属性值词、属性修饰词以及关系词中至少一种。
在一个实施例中,基于前述方案,确定节点关系图中与关键词序列对应的目标节点,包括:
检测关键词序列中是否包括属性名词、属性值词以及关系词中至少一个;
如果不包括属性名词、属性值词以及关系词,则对关键词序列进行文本切分,并依据文本切分结果对应的特征向量对关键词序列进行语义分析,以从节点关系图中确定出与关键词序列对应的目标节点。
在一个实施例中,基于前述方案,关键词序列包括属性名词和/或属性值词,确定节点关系图中与关键词序列对应的目标节点,包括:
根据字符序列与同义词库的比对,确定与字符序列对应的实体,并确定节点关系图中实体对应的所有属性节点;
计算所有属性节点分别对应的第一特征向量以及关键词序列对应的第二特征向量;
计算第一特征向量与第二特征向量之间的相似度;
根据相似度从所有属性节点中选取与关键词序列对应的目标节点。
在一个实施例中,基于前述方案,计算所有属性节点分别对应的第一特征向量,包括:
确定所有属性节点中包括的属性名词和属性值词,所有属性节点中任意两个属性节点中包括的属性名词不同;
对各属性节点中的属性名词的特征向量和属性值词的特征向量进行加权处理,并计算加权结果对应的平均值;
将平均值分别确定为对应的属性节点的第一特征向量。
在一个实施例中,基于前述方案,关键词序列包括关系词,确定节点关系图中与关键词序列对应的目标节点,包括:
根据同义词库匹配出与关键词序列对应的标准词汇;
从节点关系图中匹配与标准词汇对应的目标节点候选集,并从目标节点候选集中选取与关键词序列对应的目标节点。
在一个实施例中,基于前述方案,根据对字符序列间字符依存关系的分析,生成用于表示字符依存关系的语义结构,包括:
根据对字符序列间字符依存关系的分析,确定字符序列中各字符对应的依存关系;其中,依存关系包括主语、谓语以及宾语中至少一种;
根据依存关系生成用于表示字符依存关系的语义结构。
在一个实施例中,基于前述方案,序列生成元素包括属性名词、属性值词和实体中至少一种,根据语义结构、目标节点以及节点关系图确定序列生成元素,包括:
根据语义结构确定三元语义槽对应的实体,并将目标节点对应的属性名词确定为三元语义槽对应的属性名词,以及,根据三元语义槽对应的实体和三元语义槽对应的属性名词确定三元语义槽对应的属性值词;根据三元语义槽对应的实体、三元语义槽对应的属性名词以及三元语义槽对应的属性值词确定序列生成元素;或者,
根据语义结构和目标节点候选集确定三元语义槽对应的第一实体,并将目标节点对应的关系词确定为三元语义槽对应的关系词,以及,根据三元语义槽对应的第一实体和三元语义槽对应的关系词确定三元语义槽对应的第二实体;根据三元语义槽对应的第一实体、三元语义槽对应的关系词以及第二实体确定所述序列生成元素,第二实体与第一实体通过关系词进行连接。
在一个实施例中,基于前述方案,根据序列生成元素生成与字符序列相匹配的目标字符序列,包括:
按照预设语序排列序列生成元素,并根据排列结果生成与字符序列相匹配的目标字符序列。
在一个实施例中,基于前述方案,根据序列生成元素生成与字符序列相匹配的目标字符序列之后,上述方法还可以包括以下步骤:
输出目标字符序列并在检测到用户输入的第一回复序列后,基于三元语义槽生成第二回复序列并输出。
根据本公开实施例的第二方面,公开了一种字符序列生成装置,其特征在于,包括:关键词序列识别单元、目标节点确定单元、语义结构生成单元以及字符序列生成单元,其中:
关键词序列识别单元,用于当检测到字符序列时,识别字符序列中的关键词序列;
目标节点确定单元,用于确定节点关系图中与关键词序列对应的目标节点,节点关系图用于通过节点连接关系表征关键词之间的关联关系;
语义结构生成单元,用于根据对字符序列间字符依存关系的分析,生成用于表示字符依存关系的语义结构;
字符序列生成单元,用于根据语义结构、目标节点以及节点关系图确定序列生成元素,并根据序列生成元素生成与字符序列相匹配的目标字符序列。
在一个实施例中,基于前述方案,关键词序列识别单元识别字符序列中的关键词序列的方式具体可以为:
关键词序列识别单元计算字符序列对应的特征向量,并根据特征向量获取字符序列对应的语义内容;
关键词序列识别单元根据语义内容确定字符序列的所属类型;
若所属类型为咨询类,关键词序列识别单元识别字符序列中的关键词序列;其中,咨询类包括商品信息咨询以及促销信息咨询中至少一种。
在一个实施例中,基于前述方案,关键词序列识别单元识别字符序列中的关键词序列的方式具体可以为:
关键词序列识别单元对字符序列进行分词处理,得到多个分词,并对多个分词进行词型标注;
关键词序列识别单元根据预标注的样本分词训练词型识别模型,并根据训练后的词型识别模型识别词型标注结果中的关键词序列;其中,关键词序列包括实体词、属性名词、属性值词、属性修饰词以及关系词中至少一种。
在一个实施例中,基于前述方案,目标节点确定单元确定节点关系图中与关键词序列对应的目标节点的方式具体可以为:
目标节点确定单元检测关键词序列中是否包括属性名词、属性值词以及关系词中至少一个;
如果不包括属性名词、属性值词以及关系词,目标节点确定单元对关键词序列进行文本切分,并依据文本切分结果对应的特征向量对关键词序列进行语义分析,以从节点关系图中确定出与关键词序列对应的目标节点。
在一个实施例中,基于前述方案,关键词序列包括属性名词和/或属性值词,目标节点确定单元确定节点关系图中与关键词序列对应的目标节点的方式具体可以为:
目标节点确定单元根据字符序列与同义词库的比对,确定与字符序列对应的实体,并确定节点关系图中实体对应的所有属性节点;
目标节点确定单元计算所有属性节点分别对应的第一特征向量以及关键词序列对应的第二特征向量;
目标节点确定单元计算第一特征向量与第二特征向量之间的相似度;
目标节点确定单元根据相似度从所有属性节点中选取与关键词序列对应的目标节点。
在一个实施例中,基于前述方案,目标节点确定单元计算所有属性节点分别对应的第一特征向量的方式具体可以为:
目标节点确定单元确定所有属性节点中包括的属性名词和属性值词,所有属性节点中任意两个属性节点中包括的属性名词不同;
目标节点确定单元对各属性节点中的属性名词的特征向量和属性值词的特征向量进行加权处理,并计算加权结果对应的平均值;
目标节点确定单元将平均值分别确定为对应的属性节点的第一特征向量。
在一个实施例中,基于前述方案,关键词序列包括关系词,目标节点确定单元确定节点关系图中与关键词序列对应的目标节点的方式具体可以为:
目标节点确定单元根据同义词库匹配出与关键词序列对应的标准词汇;
目标节点确定单元从节点关系图中匹配与标准词汇对应的目标节点候选集,并从目标节点候选集中选取与关键词序列对应的目标节点。
在一个实施例中,基于前述方案,语义结构生成单元根据对字符序列间字符依存关系的分析,生成用于表示字符依存关系的语义结构的方式具体可以为:
语义结构生成单元根据对字符序列间字符依存关系的分析,确定字符序列中各字符对应的依存关系;其中,依存关系包括主语、谓语以及宾语中至少一种;
语义结构生成单元根据依存关系生成用于表示字符依存关系的语义结构。
在一个实施例中,基于前述方案,序列生成元素包括属性名词、属性值词和实体中至少一种,字符序列生成单元根据语义结构、目标节点以及节点关系图确定序列生成元素的方式具体可以为:
字符序列生成单元根据语义结构确定三元语义槽对应的实体,并将目标节点对应的属性名词确定为三元语义槽对应的属性名词,以及,根据三元语义槽对应的实体和三元语义槽对应的属性名词确定三元语义槽对应的属性值词;根据三元语义槽对应的实体、三元语义槽对应的属性名词以及三元语义槽对应的属性值词确定序列生成元素;或者,
字符序列生成单元根据语义结构和目标节点候选集确定三元语义槽对应的第一实体,并将目标节点对应的关系词确定为三元语义槽对应的关系词,以及,根据三元语义槽对应的第一实体和三元语义槽对应的关系词确定三元语义槽对应的第二实体;根据三元语义槽对应的第一实体、三元语义槽对应的关系词以及第二实体确定所述序列生成元素,第二实体与第一实体通过关系词进行连接。
在一个实施例中,基于前述方案,字符序列生成单元根据序列生成元素生成与字符序列相匹配的目标字符序列的方式具体可以为:
字符序列生成单元按照预设语序排列序列生成元素,并根据排列结果生成与字符序列相匹配的目标字符序列。
在一个实施例中,基于前述方案,字符序列生成单元,还用于在根据序列生成元素生成与字符序列相匹配的目标字符序列之后,输出目标字符序列并在检测到用户输入的第一回复序列后,基于三元语义槽生成第二回复序列并输出。
根据本公开实施例的第三方面,公开了一种电子设备,包括:处理器;以及存储器,存储器上存储有计算机可读指令,计算机可读指令被处理器执行时实现如第一方面公开的字符序列生成方法。
根据本公开实施例的第四方面,公开了一种计算机程序介质,其上存储有计算机可读指令,当计算机可读指令被计算机的处理器执行时,使计算机执行根据本公开第一方面公开的字符序列生成方法。
本公开实施例能够当检测到字符序列(如,连衣裙的颜色是什么)时,识别字符序列中的关键词序列(如,连衣裙、颜色),并确定节点关系图中与关键词序列对应的目标节点,节点关系图用于通过节点连接关系表征关键词之间的关联关系。进而,可以根据对字符序列间字符依存关系(如,连衣裙[主语]的颜色[宾语]是什么)的分析,生成用于表示字符依存关系的语义结构;根据语义结构、目标节点以及节点关系图确定序列生成元素(如,连衣裙、颜色、红色),并根据序列生成元素生成与字符序列相匹配的目标字符序列(如,连衣裙的颜色为红色)。相较现有技术,实施本公开的实施例一方面能够提升回复用户信息的自动化程度以及智能程度,改善用户的使用体验,提升用户的使用黏度;另一方面,能够提升消息回复的及时性,降低人工回复的成本。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1示出的是根据本公开一示例实施方式的字符序列生成方法的流程示意图;
图2示出的是根据本公开另一示例实施方式的字符序列生成方法的流程示意图;
图3示出的是根据本公开一示例实施方式的字符序列生成方法的模块示意图;
图4示出的是根据本公开一示例实施方式的确定字符序列对应的商品信息的推演示意图;
图5示出的是根据本公开一示例实施方式的节点特征向量匹配示意图;
图6示出的是根据本公开一示例实施方式的针对关系词的商品信息确定示意图;
图7示出的是根据本公开一示例实施方式针对用户输入的界面示意图;
图8示出的是根据本公开一示例实施方式的字符序列生成方法的用户界面示意图;
图9示出的是根据本公开另一示例实施方式的字符序列生成方法的用户界面示意图;
图10示出的是根据本公开又一示例实施方式的字符序列生成方法的用户界面示意图;
图11示出的是根据本公开一示例实施方式的字符序列生成装置的结构框图;
图12示出的是根据本公开另一可选示例实施方式的字符序列生成装置的结构框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本公开的实施方式,提出了一种字符序列生成方法、字符序列生成装置、电子设备以及计算机可读存储介质。
附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和精神。
发明概述
在智能客服场景下,用户的文字输入往往是不规范的,具备片段化和口话语的特性,增加了语义理解的难度。如何精准的理解用户输入的语义,并承接上下文给出正确的回复成为了当前亟需解决的问题。传统的知识图谱问答,通过实体链接的方式,以实体为切入点寻找答案的范围。但是,用户针对商品提问时,语句中有效的信息除了商品实体外,还有属性词汇,因此属性词汇的识别也非常重要。当用户的问法繁杂时,一句话可能会包含多个基础图谱三元组的推理,通过人工来维护推理模板并不具备通用性;其中,基础图谱三元组中包括商品提问的关键词以及对应的回复关键词,基础图谱三元组可以用于表示关键词之间的关系。考虑到实际业务中的人力成本,算法模型的训练往往需要人工标注,如何花费尽量少的人力成本达到尽可能好的匹配效果也是对当前需要解决的问题。
针对上述问题,申请人想到可以在用户输入问题后进行商品问题意图识别,并抽取实体、属性、关系词汇信息,完成关键词汇到图谱基础元素的链接定位,进而根据语义解析规则构建图谱查询语言,获取问题的答案,按照一定的回复模板进行答案的组装,回复用户。这样可以提升回复序列的精准性,改善用户的使用体验,提升用户的使用黏度。
应用场景总览
需要注意的是,下述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
本公开的实施例可以适用于智能客服对用户输入的问题进行自动回复,通过本公开的技术方案可以分析用户输入的问题(即,字符序列),从而确定出用户咨询的商品以及商品对应的属性信息或促销信息,进而有针对性地进行回复。并且还可以根据三元语义槽以及节点关系图进行上下文的元素承接,以进行多轮问答,改善用户的使用体验,提升用户的使用黏度。
示例性方法
下面结合上述的应用场景,参考图1~图10来描述根据本公开示例性实施方式的字符序列生成方法。
请参阅图1,图1示出的是根据本公开一示例实施方式的字符序列生成方法的流程示意图,该字符序列生成方法可以由服务器或终端设备来实现。
如图1所示,根据本公开的一个实施例的字符序列生成方法包括:
步骤S110:当检测到字符序列时,识别字符序列中的关键词序列。
步骤S120:确定节点关系图中与关键词序列对应的目标节点,节点关系图用于通过节点连接关系表征关键词之间的关联关系。
步骤S130:根据对字符序列间字符依存关系的分析,生成用于表示字符依存关系的语义结构。
步骤S140:根据语义结构、目标节点以及节点关系图确定序列生成元素,并根据序列生成元素生成与字符序列相匹配的目标字符序列。
下面对这些步骤进行详细描述。
在步骤S110中,当检测到字符序列时,识别字符序列中的关键词序列。
其中,字符序列可以为用户输入的文本信息(如,这个连衣裙还有其他颜色吗?)。另外,字符序列可以由多个字符组成,包括各类文字、数字、符号中至少一种,本申请实施例不作限定。另外,关键词序列中可以包括一个或多个关键词(如,连衣裙、颜色)。
本申请实施例中,可选的,识别字符序列中的关键词序列,包括:计算字符序列对应的特征向量,并根据特征向量获取字符序列对应的语义内容;根据语义内容确定字符序列的所属类型;若所属类型为咨询类,则识别字符序列中的关键词序列;其中,咨询类包括商品信息咨询以及促销信息咨询中至少一种。
其中,商品信息咨询表示用户输入的字符序列用于咨询商品信息,促销信息咨询表示用户输入的字符序列用于咨询商品的促销信息。
另外,可选的,计算字符序列对应的特征向量的方式具体可以为:将字符序列输入BERT模型,通过BERT模型中的多个编码器层计算字符序列对应的特征向量;其中,多个编码器层依次连接,每个编码器层包括自注意机制,每个编码器层的输入为上一编码器层的输出,每个编码器层的输出可以表示为特征向量;上述的BERT模型用于计算字符序列对应的特征向量。进一步地,根据特征向量获取字符序列对应的语义内容的方式具体可以为:根据预设向量映射规则确定特征向量对应的语义内容(如,这个连衣裙还有其他颜色吗?);其中,预设向量映射规则用于表示特征向量与语义之间的对应关系。进一步地,根据语义内容确定字符序列的所属类型的方式具体可以为:检测语义内容中是否包含商品信息(如,连衣裙)或促销信息(如,元旦促销),如果包含商品信息或咨询信息,则将字符序列的所属类型确定为咨询类。
另外,可选的,若所属类型非咨询类,则根据语义映射规则确定待输出的文本信息并输出;其中,语义映射规则用于表示用户输入的语义内容与客服回复的语义内容的对应关系。例如,如果字符序列为“你好”,那么,该字符序列的所属类型非咨询类,进而可以根据语义映射规则确定出“你好,在吗?”对应的文本信息为“你好,请问有什么可以帮你的吗?”,进而可以输出该文本信息。
可见,实施该可选的实施例,能够对字符类型的所属类型进行识别,有针对性的识别咨询类的字符序列中的关键词序列,降低对计算资源的浪费,提升计算效率。
进一步可选的,识别字符序列中的关键词序列,包括:对字符序列进行分词处理,得到多个分词,并对多个分词进行词型标注;根据预标注的样本分词训练词型识别模型,并根据训练后的词型识别模型识别词型标注结果中的关键词序列;其中,关键词序列包括实体词、属性名词、属性值词、属性修饰词以及关系词中至少一种。
其中,可选的,对字符序列进行分词处理,得到多个分词的方式具体可以为:确定字符序列的字符级别特征向量,根据相邻的字符级别特征向量之间的相关联程度对字符序列进行切分,得到多个分词。进一步地,对多个分词进行词型标注的方式具体可以为:确定多个分词分别对应的词语级别特征向量并输入CRF模型,通过CRF模型识别多个分词中各分词对应的词型,并根据各分词对应词型对各分词进行词型标注;其中,词型包括主语类型、动词类型、名词类型等类型中至少一种;其中,CRF模型(Conditional Random Fields,条件随机场)是在给定一组输入随机变量的条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场,通过CRF模型可以确定出中分词属于各词型的概率,根据这个概率可以从各词型中选取出分词所属的词型,进而有利于词型标注,举例来说,如果分词“连衣裙”属于主语类型的概率为1.5,属于动词类型的概率为“0.5”,属于名词类型的概率为“1.9”,那么,可以将分词“连衣裙”标注为名词类型。进一步地,根据预标注的样本分词训练词型识别模型的方式具体可以为:根据各词型分别对应的词汇集合训练词型识别模型,以使得词型识别模型能够学习各词型与对应的词汇集合之间的关系:其中,词型识别模型可以为ERP识别模型,具体可以表示为Entity(实体)-Relation(关系)-Property(属性)识别模型,ERP识别模型用于识别字符序列中的关键词序列。进一步地,根据训练后的词型识别模型识别词型标注结果中的关键词序列的方式具体可以为:将词型标注结果输入训练后的词型识别模型,通过词型识别模型计算词型标注结果对应的特征向量,根据该特征向量识别字符序列中的关键词序列。
可见,实施该可选的实施例,能够通过词型标注确定出关键词序列,解决了不同用户针对同一语义可能输入不同词汇进而导致关键词序列提取准确率较低的问题,提升了对于关键词序列的提取效率以及提取准确率。
在步骤S120中,确定节点关系图中与关键词序列对应的目标节点,节点关系图用于通过节点连接关系表征关键词之间的关联关系。
其中,在确定节点关系图中与关键词序列对应的目标节点之前,上述方法还可以包括以下步骤:根据实体、实体的属性名词、实体的属性值词、实体的关系词以及关系词的实体构建知识图谱;具体包括:确定实体、实体的属性名词、实体的属性值词、实体的关系词以及关系词的实体之间的关系;根据上述关系将实体、实体的属性名词、实体的属性值词、实体的关系词以及关系词的实体作为节点进行连接,得到节点关系图,节点关系图是知识图谱的表现形式;其中,知识图谱是一种用节点代替实体,用连边代替实体之间关系的一种语义网络,知识图谱可以将不同种类的信息连接在一起。举例来说,可以确定实体“连衣裙”、实体的属性名词“颜色”、实体的属性值词“红色”“黄色”“黑色”、实体的关系词“参加”、关系词的实体“元旦促销”“中秋促销”之间的关系,实体“连衣裙”与属性名词“颜色”和实体的关系词“参加”之间存在关系,实体的属性名词“颜色”与实体的属性值词“红色”“黄色”“黑色”之间存在关系,实体的关系词“参加”与关系词的实体“元旦促销”“中秋促销”之间存在关系,进而,可以根据上述关系将实体“连衣裙”、实体的属性名词“颜色”、实体的属性值词“红色”“黄色”“黑色”、实体的关系词“参加”、关系词的实体“元旦促销”“中秋促销”作为节点进行连接,得到节点关系图。另外,节点关系图由多个节点构成,节点之间通过连边进行连接,连边用于表示所连接的节点之间存在关系,目标节点的数量可以为一个或多个,目标节点中可以包括属性值词或关系词。
本申请实施例中,可选的,确定节点关系图中与关键词序列对应的目标节点,包括:检测关键词序列中是否包括属性名词、属性值词以及关系词中至少一个;如果不包括属性名词、属性值词以及关系词,则对关键词序列进行文本切分,并依据文本切分结果对应的特征向量对关键词序列进行语义分析,以从节点关系图中确定出与关键词序列对应的目标节点。
其中,如果检测到关键词序列中不包括属性名词、属性值词以及关键词,则表示关键词序列为长文本序列,例如,食用A牌奶粉一个月的情况下如何将A牌奶粉转换为B牌奶粉。进一步地,对关键词序列进行文本切分的方式具体可以为:根据关键词序列对应的词型对关键词序列进行切分。进一步地,依据文本切分结果对应的特征向量对关键词序列进行语义分析,以从节点关系图中确定出与关键词序列对应的目标节点的方式具体可以为:计算文本切分结果对应的特征向量,将文本切分结果对应的特征向量与预设文本的特征向量进行相似度比对,根据比对结果将相似度高于预设相似度的预设文本所对应的节点确定为关键词序列对应的目标节点,文本切分结果可以为一个或多个。其中,将文本切分结果对应的特征向量与预设文本的特征向量进行相似度比对,具体包括:计算文本切分结果对应的特征向量与预设文本的特征向量之间的向量距离,将向量距离确定为文本切分结果对应的特征向量与预设文本的特征向量之间的相似度;其中,向量距离可以为余弦距离也可以为欧式距离,本申请实施例不作限定。另外,在该可选的实施例中,目标节点可以为属性名词对应的节点也可以为关系词对应的节点等,本申请实施例不作限定。
可见,实施该可选的实施例,能够对不包括属性名词、属性值词以及关系词的关键词序列进行识别,从而确定与其对应的目标节点,提升了对于用户输入的字符序列的识别范围,有利于针对性地输出相对应的回复,改善用户的使用体验。
本申请实施例中,可选的,关键词序列包括属性名词和/或属性值词,确定节点关系图中与关键词序列对应的目标节点,包括:根据字符序列与同义词库的比对,确定与字符序列对应的实体,并确定节点关系图中实体对应的所有属性节点;计算所有属性节点分别对应的第一特征向量以及关键词序列对应的第二特征向量;计算第一特征向量与第二特征向量之间的相似度;根据相似度从所有属性节点中选取与关键词序列对应的目标节点。
其中,关键词序列中可以包括属性名词(如,颜色),或者包括属性值词(如,红色),或者包括属性名词和属性值词。同义词库中包括多组同义词,每组同义词中的词汇对应相同的意义。另外,根据字符序列与同义词库的比对,确定与字符序列对应的实体的方式具体可以为:将字符序列中的词汇与同义词库中的词汇进行匹配,若匹配成功,则匹配得到同义词库中的词汇所对应的标准词汇确定为字符序列对应的实体。例如,字符序列中包括词汇“连体裙”,同义词库中存在一组包括“连衣裙”、“连衣裙”、“连身裙”的同义词,字符序列中的词汇“连体裙”与同义词库中的词汇“连体裙”相匹配,而词汇“连体裙”所对应的标准词汇为“连衣裙”,因此,可以将“连衣裙”确定为字符序列对应的实体。另外,确定节点关系图中实体对应的所有属性节点的方式具体可以为:从节点关系图中确定实体对应的节点,根据实体对应的节点所有的连边确定出用于指向属性词的连边,并根据该连边确定出实体对应的所有属性节点;其中属性词包括属性名词和/或属性值词。举例来说,如果节点所有的连边包括用于指向属性词的3个连边以及用于指向关系词的2个连边,则可以将用于指向属性词的3个连边分别连接的节点确定为该实体所对应的属性节点。另外,第一特征向量的数量与属性节点的数量相同。另外,所计算的第一特征向量与第二特征向量之间的相似度可以通过余弦距离或欧式距离等进行表示,本申请实施例不作限定。另外,根据相似度从所有属性节点中选取与关键词序列对应的目标节点的方式具体可以为:从多个相似度中选取最高相似度,将最高相似度对应的属性节点确定为与关键词序列对应的目标节点。
可见,实施该可选的实施例,能够通过计算向量相似度的方式从多个属性节点中选取出于关键词序列相对应的目标节点,进而有利于根据该目标节点生成目标字符序列(如,待回复用户的文本信息),提升了对于目标字符序列的生成准确率。
进一步可选的,计算所有属性节点分别对应的第一特征向量,包括:确定所有属性节点中包括的属性名词和属性值词,所有属性节点中任意两个属性节点中包括的属性名词不同;对各属性节点中的属性名词的特征向量和属性值词的特征向量进行加权处理,并计算加权结果对应的平均值;将平均值分别确定为对应的属性节点的第一特征向量。
其中,属性节点中可以包括一个属性名词(如,颜色)以及一个或多个属性值词(如,红色、黄色、黑色)。另外,对各属性节点中的属性名词的特征向量和属性值词的特征向量进行加权处理,并计算加权结果对应的平均值的方式具体可以为:计算各属性节点中的属性名词的特征向量和属性值词的特征向量,确定各属性节点对应的权重比例,根据权重比例计算各属性节点中的属性名词的特征向量和属性值词的特征向量的加权结果,进而根据属性节点中属性名词和属性值词的数量和对加权结果求平均值。另外,各属性节点对应的平均值可以不同也可以相同。举例来说,属性节点A中包括:颜色、红色、黄色,属性节点B中包括:材质、金属,属性节点A对应的权重比例为3:1:1,属性节点B对应的权重比例为2:1,那么,属性节点A对应的第一特征向量可以为:(3*颜色的特征向量+1*红色的特征向量+1*黄色的特征向量)/3,属性节点B对应的第一特征向量可以为:(2*材质的特征向量+1*金属的特征向量)/2。
可见,实施该可选的实施例,能够通过对于属性节点对应的特征向量的计算,有利于更准确地从多个属性节点中选取与关键词序列对应的目标节点,进而提升对于目标字符序列的生成准确率。
本申请实施例中,可选的,关键词序列包括关系词,确定节点关系图中与关键词序列对应的目标节点,包括:根据同义词库匹配出与关键词序列对应的标准词汇;从节点关系图中匹配与标准词汇对应的目标节点候选集,并从目标节点候选集中选取与关键词序列对应的目标节点。
其中,根据同义词库匹配出于关键词序列对应的标准词汇的方式具体可以为:从同义词库中确定出与关键词序列中的关键词相同的词汇,确定该词汇对应的标准词汇,并将该标准词汇确定为与关键词序列对应的标准词汇;其中,标准词汇可以对应一个或多个同义词。另外,从节点关系图中匹配与标准词汇对应的目标节点候选集的方式具体可以为:从节点关系图中确定出标准词汇对应的节点,将该节点的所有连边指向的节点确定为目标节点候选集;其中,关系词的标准词汇对应的节点与字符序列中的实体对应的节点相连接。另外,从目标节点候选集中选取与关键词序列对应的目标节点的方式具体可以为:计算各目标节点候选集中各目标节点对应的特征向量以及关键词序列对应的特征向量,根据各目标节点对应的特征向量分别与关键词序列对应的特征向量之间的相似度,从目标节点候选集中选取目标节点,目标节点对应的特征向量与关键词序列对应的特征向量相似度最高。
可见,实施该可选的实施例,能够确定出关键词序列中关系词对应的目标节点,增加了目标字符序列的生成多样性,提升了后续生成的目标字符序列与用户输入的字符序列之间的相匹配程度,减少了答非所问的可能性,进而改善用户的使用体验。
在步骤S130中,根据对字符序列间字符依存关系的分析,生成用于表示字符依存关系的语义结构。
其中,字符依存关系用于表示字符之间的连接关系,语义结构可以通过语义树进行表示,语义树由多个节点组成,多个节点中的任一节点可以包括一个或多个字符。
本申请实施例中,可选的,根据对字符序列间字符依存关系的分析,生成用于表示字符依存关系的语义结构,包括:根据对字符序列间字符依存关系的分析,确定字符序列中各字符对应的依存关系;其中,依存关系包括主语、谓语以及宾语中至少一种;根据依存关系生成用于表示字符依存关系的语义结构。
其中,依存关系还可以包括助语、状语等,本申请实施例不作限定。另外,根据对字符序列间字符依存关系的分析,确定字符序列中各字符对应的依存关系的方式具体可以为:根据字符序列中各字符对应的字符级别特征向量将关联程度高于预设关联程度的字符划分为词组,从预设词典中确定各词组对应的依存关系;其中,依存关系可以为词性。另外,根据依存关系生成用于表示字符依存关系的语义结构的方式具体可以为:根据依存关系对字符进行连接,进而得到用于表示字符依存关系的语义结构。
可见,实施该可选的实施例,能够通过对字符序列的语义分析,确定出字符间的依存关系,进而可以根据该依存关系确定目标字符序列,提升了生成目标字符序列的准确率。
在步骤S140中,根据语义结构、目标节点以及节点关系图确定序列生成元素,并根据序列生成元素生成与字符序列相匹配的目标字符序列。
本申请实施例中,可选的,序列生成元素包括属性名词、属性值词和实体中至少一种,根据语义结构、目标节点以及节点关系图确定序列生成元素,包括:
根据语义结构确定三元语义槽对应的实体,并将目标节点对应的属性名词确定为三元语义槽对应的属性名词,以及,根据三元语义槽对应的实体和三元语义槽对应的属性名词确定三元语义槽对应的属性值词;根据三元语义槽对应的实体、三元语义槽对应的属性名词以及三元语义槽对应的属性值词确定序列生成元素;或者,
根据语义结构和目标节点候选集确定三元语义槽对应的第一实体,并将目标节点对应的关系词确定为三元语义槽对应的关系词,以及,根据三元语义槽对应的第一实体和三元语义槽对应的关系词确定三元语义槽对应的第二实体;根据三元语义槽对应的第一实体、三元语义槽对应的关系词以及第二实体确定所述序列生成元素,第二实体与第一实体通过关系词进行连接。
其中,三元语义槽中可以包括三个元素,三个元素中任意两个元素不相同。另外,根据语义结构确定三元语义槽对应的实体的方式具体可以为:将依存关系为主语的字符确定为三元语义槽对应的实体(如,连衣裙)。另外,将目标节点对应的属性名词确定为三元语义槽对应的属性名词的方式具体可以为:确定目标节点中包括的属性名词(如,颜色)确定为三元语义槽对应的属性名词。另外,序列生成元素可以包括实体、属性名词、属性值词,例如,可以表示为:<连衣裙,颜色,红色>。另外,序列生成元素还可以包括第一实体、关系词、第二实体,例如,可以表示为:<连衣裙,参加,元旦促销>。
可见,实施该可选的实施例,能够通过实体、属性名词、属性值词确定序列生成元素,也可以通过第一实体、关系词、第二实体确定序列生成元素,扩大了本申请的应用范围。
本申请实施例中,可选的,根据序列生成元素生成与字符序列相匹配的目标字符序列,包括:按照预设语序排列序列生成元素,并根据排列结果生成与字符序列相匹配的目标字符序列。
其中,预设语序排列顺序可以规定序列生成元素的元素顺序。举例来说,如果序列生成元素包括:<连衣裙,颜色,红色>,排列结果为:连衣裙-颜色-红色,根据该排列结果可以生成与字符序列“连衣裙是什么颜色?”相匹配的目标字符序列“连衣裙的颜色为红色”。另外,根据排列结果生成与字符序列相匹配的目标字符序列的方式具体可以为:根据排列结果以及生成模板生成与字符序列相匹配的目标字符序列,其中,生成模板可以包括:(实 体)的(属性名词)为(属性值词),以及,(第一实体)(关系词)(第二实体)。
可见,实施该可选的实施例,能够通过生成与用户输入的字符序列相匹配的目标字符序列,提升自动回复的智能化程度,改善用户的使用体验,提升用户的使用黏度。
本申请实施例中,可选的,根据序列生成元素生成与字符序列相匹配的目标字符序列之后,上述方法还可以包括以下步骤:输出目标字符序列并在检测到用户输入的第一回复序列后,基于三元语义槽生成第二回复序列并输出。
其中,第二回复序列与第一回复序列相对应。举例来说,字符序列为“连衣裙是什么颜色?”,目标字符序列为“连衣裙的颜色为红色”,第一回复序列为“还有什么颜色?”,根据三元语义槽中的序列生成元素<连衣裙,颜色,红色>可知,用户询问的是连衣裙的其他颜色,根据节点关系图可以确定出颜色所对应的节点中除了红色还包括黑色和黄色,因此,输出的第二回复序列可以为“连衣裙的颜色还有黄色和黑色”。
可见,实施该可选的实施例,能够通过三元语义槽的元素承接,实现上下文的多轮问答,进而改善用户的使用体验,提升用户的使用黏度。
可见,实施图1所示的字符序列生成方法,能够提升回复用户信息的自动化程度以及智能程度,改善用户的使用体验,提升用户的使用黏度。此外,还能够提升消息回复的及时性,降低人工回复的成本。
请参阅图2,图2示出的是根据本公开另一示例实施方式的字符序列生成方法的流程示意图。如图2所示,另一示例实施方式的字符序列生成方法可以包括:步骤S200~步骤S222,其中:
步骤S200:当检测到字符序列时,计算字符序列对应的特征向量,并根据特征向量获取字符序列对应的语义内容,根据语义内容确定字符序列的所属类型。
步骤S202:若所属类型为咨询类,则对字符序列进行分词处理,得到多个分词,并对多个分词进行词型标注,根据预标注的样本分词训练词型识别模型,并根据训练后的词型识别模型识别词型标注结果中的关键词序列;其中,关键词序列包括实体词、属性名词、属性值词、属性修饰词以及关系词中至少一种,咨询类包括商品信息咨询以及促销信息咨询中至少一种。
步骤S204:检测关键词序列中是否包括属性名词、属性值词以及关系词中至少一个;如果关键词序列不包括属性名词、属性值词以及关系词,则执行步骤S206;如果关键词序列包括属性名词和/属性值词,则执行步骤S208;如果关键词序列包括关系词,则执行步骤S210。
步骤S206:对关键词序列进行文本切分,并依据文本切分结果对应的特征向量对关键词序列进行语义分析,以从节点关系图中确定出与关键词序列对应的目标节点,并执行步骤S216。
步骤S208:根据字符序列与同义词库的比对,确定与字符序列对应的实体,并确定节点关系图中实体对应的所有属性节点,并执行步骤S212。
步骤S210:根据同义词库匹配出与关键词序列对应的标准词汇,从节点关系图中匹配与标准词汇对应的目标节点候选集,并从目标节点候选集中选取与关键词序列对应的目标节点,并执行步骤S216。
步骤S212:确定所有属性节点中包括的属性名词和属性值词,所有属性节点中任意两个属性节点中包括的属性名词不同,对各属性节点中的属性名词的特征向量和属性值词的特征向量进行加权处理,并计算加权结果对应的平均值,将平均值分别确定为对应的属性节点的第一特征向量,计算所有属性节点分别对应的第二特征向量。
步骤S214:计算第一特征向量与第二特征向量之间的相似度,根据相似度从所有属性节点中选取与关键词序列对应的目标节点。
步骤S216:根据对字符序列间字符依存关系的分析,确定字符序列中各字符对应的依存关系,根据依存关系生成用于表示字符依存关系的语义结构;其中,依存关系包括主语、谓语以及宾语中至少一种;当目标节点对应属性名词时,执行步骤S218;当目标节点对应关系词时,执行步骤S220。
步骤S218:根据语义结构确定三元语义槽对应的实体,并将目标节点对应的属性名词确定为三元语义槽对应的属性名词,以及,根据三元语义槽对应的实体和三元语义槽对应的属性名词确定三元语义槽对应的属性值词;根据三元语义槽对应的实体、三元语义槽对应的属性名词以及三元语义槽对应的属性值词确定序列生成元素。
步骤S220:根据语义结构和目标节点候选集确定三元语义槽对应的第一实体,并将目标节点对应的关系词确定为三元语义槽对应的关系词,以及,根据三元语义槽对应的第一实体和三元语义槽对应的关系词确定三元语义槽对应的第二实体;根据三元语义槽对应的第一实体、三元语义槽对应的关系词以及第二实体确定所述序列生成元素,第二实体与第一实体通过关系词进行连接。
步骤S222:按照预设语序排列序列生成元素,并根据排列结果生成与字符序列相匹配的目标字符序列,输出目标字符序列并在检测到用户输入的第一回复序列后,基于三元语义槽生成第二回复序列并输出。
需要说明的是,步骤S200~步骤S222与图1所示的步骤及其实施例相对应,关于步骤S200~步骤S222的具体实施方式,请参阅图1所示的步骤及其实施例,此处不再赘述。
可见,实施图2所示的字符序列生成方法,能够提升回复用户信息的自动化程度以及智能程度,改善用户的使用体验,提升用户的使用黏度。此外,还能够提升消息回复的及时性,降低人工回复的成本。
请参阅图3,图3示出的是根据本公开一示例实施方式的字符序列生成方法的模块示意图。如图3所示,字符序列生成方法的模块示意图包括:字符序列分类模块301、实体识别模块302、语义分析模块303、语句构造模块304以及图谱查询模块305;其中,语义分析模块303包括语义依存分析子模块3031、三元语义槽确定子模块3032以及语义链接子模块3033,具体地:
当检测到字符序列时,字符序列分类模块301可以计算字符序列对应的特征向量,并根据特征向量获取字符序列对应的语义内容,根据语义内容确定字符序列的所属类型。若所属类型为咨询类,实体识别模块302可以对字符序列进行分词处理,得到多个分词,并对多个分词进行词型标注,根据预标注的样本分词训练词型识别模型,并根据训练后的词型识别模型识别词型标注结果中的关键词序列;进而,检测关键词序列中是否包括属性名词、属性值词以及关系词中至少一个。如果关键词序列不包括属性名词,语义链接子模块3033可以对关键词序列进行文本切分,并依据文本切分结果对应的特征向量对关键词序列进行语义分析,以从节点关系图中确定出与关键词序列对应的目标节点。如果关键词序列包括属性名词和/属性值词,语义链接子模块3033可以根据字符序列与同义词库的比对,确定与字符序列对应的实体,并确定节点关系图中实体对应的所有属性节点;进而,确定所有属性节点中包括的属性名词和属性值词,所有属性节点中任意两个属性节点中包括的属性名词不同,对各属性节点中的属性名词的特征向量和属性值词的特征向量进行加权处理,并计算加权结果对应的平均值,将平均值分别确定为对应的属性节点的第一特征向量,计算所有属性节点分别对应的第二特征向量,计算第一特征向量与第二特征向量之间的相似度,根据相似度从所有属性节点中选取与关键词序列对应的目标节点。如果关键词序列包括关系词,语义链接子模块3033可以根据同义词库匹配出与关键词序列对应的标准词汇,从节点关系图中匹配与标准词汇对应的目标节点候选集,并从目标节点候选集中选取与关键词序列对应的目标节点。进而,语义依存分析子模块3031可以根据对字符序列间字符依存关系的分析,确定字符序列中各字符对应的依存关系,根据依存关系生成用于表示字符依存关系的语义结构。三元语义槽确定子模块3032可以根据语义结构确定三元语义槽对应的实体,并将目标节点对应的属性名词确定为三元语义槽对应的属性名词,以及,根据三元语义槽对应的实体和三元语义槽对应的属性名词确定三元语义槽对应的属性值词;根据三元语义槽对应的实体、三元语义槽对应的属性名词以及三元语义槽对应的属性值词确定序列生成元素。或者,三元语义槽确定子模块3032可以根据语义结构和目标节点候选集确定三元语义槽对应的第一实体,并将目标节点对应的关系词确定为三元语义槽对应的关系词,以及,根据三元语义槽对应的第一实体和三元语义槽对应的关系词确定三元语义槽对应的第二实体;根据三元语义槽对应的第一实体、三元语义槽对应的关系词以及第二实体确定所述序列生成元素,第二实体与第一实体通过关系词进行连接。语句构造模块304可以按照预设语序排列序列生成元素,并根据排列结果生成与字符序列相匹配的目标字符序列,输出目标字符序列。图谱查询模块305可以在检测到用户输入的针对目标字符序列的回复序列后,基于三元语义槽生成相对应的回复序列并输出。
可见,实施图3所示的字符序列生成方法的模块示意图,能够提升回复用户信息的自动化程度以及智能程度,改善用户的使用体验,提升用户的使用黏度。此外,还能够提升消息回复的及时性,降低人工回复的成本。
请参阅图4,图4示出的是根据本公开一示例实施方式的确定字符序列对应的商品信息的推演示意图。如图4所示,节点关系图中包括:参加(R)、四件套(SPUE)、活动(D)、条纹(PV)、1.5m(PV/R);其中,参加(R)与四件套(SPUE)和活动(D)之间存在连边,四件套(SPUE)与条纹(PV)之间存在连边,条纹(PV)与1.5m(PV/R)之间存在连边。根据属性确定模块401可以根据用户输入的字符序列定位到节点:四件套(SPUE)、条纹(PV)、1.5m(PV/R)。进而可以通过图谱查询模块402查询符合四件套(SPUE)、条纹(PV)以及1.5m(PV/R)的要求的实体。实体链接模块403可以根据用户的历史输入记录以及上述实体确定出商品信息并输出。
可见,实施图4所示的确定字符序列对应的实体的推演示意图,能够根据节点关系图确定出用户所要查询的商品信息,进而对用户输入的字符序列进行有效反馈,改善用户的使用体验。
请参阅图5,图5示出的是根据本公开一示例实施方式的节点特征向量匹配示意图。如图5所示,可以根据关键词序列对应的节点匹配出节点关系图中与其对应的节点;其中,关键词序列对应的节点包括:四件套(SPUE)、格子、鹅黄,与其对应的节点包括:四件套1及所连接的三个节点、四件套2及所连接的三个节点。进而,可以计算得到四件套1和四件套2分别对应的特征向量以及四件套(SPUE)对应的特征向量,并将四件套1和四件套2分别对应的特征向量分别与四件套(SPUE)对应的特征向量进行匹配,可以得到匹配结果,匹配结果中可以包括与关键词序列对应的节点相似度最高的节点,如,四件套1及所连接的三个节点,或是四件套2及所连接的三个节点。
请参阅图6,图6示出的是根据本公开一示例实施方式的针对关系词的商品信息确定示意图。如图6所示,节点关系图中包括:参加(R)、四件套(SPUE)、活动(D)、条纹(PV)、1.5m(PV/R);其中,参加(R)与四件套(SPUE)和活动(D)之间存在连边,四件套(SPUE)与条纹(PV)之间存在连边,条纹(PV)与1.5m(PV/R)之间存在连边。根据参加(R)、四件套(SPUE)、活动(D)可以进行关系推断,从而确定出四件套(SPUE)所参加的活动,根据实体链接可以确定出四件套(SPUE)对应的实体,根据四件套(SPUE)的实体以及四件套(SPUE)所参加的活动可以确定出四件套(SPUE)所参加的商品信息,如,<四件套,参加,元旦促销活动>。
请参阅图7,图7示出的是根据本公开一示例实施方式针对用户输入的界面示意图。如图7所示,在对话框中,包含用户输入的图片及信息。可以根据用户输入的图片定位到对应的实体,如,SPO=<SPU_牛仔裤,null,null>,并分析用户输入的字符序列“是什么材质的?”,从而根据节点关系图确定出三元语义槽,如,SPO=<SPU_牛仔裤,材质,莱卡棉>、SPO=<SPU_牛仔裤,材质,柔软>,进而,根据三元语义槽可以对上下文的元素进行承接,从而分析字符序列“尺码可以说下吗?”,根据节点关系图确定出三元语义槽,如,SPO=<SPU_牛仔裤,尺码,尺码助手信息>、SPO=<SPU_牛仔裤,尺码,标准>。以及,可以根据三元语义槽可以对上下文的元素进行承接,分析字符序列“现在打折吗?”,根据节点关系图确定出三元语义槽,如,SPO=<SPU_牛仔裤,27下位,SKU_牛仔裤>、SPO=<SPU_牛仔裤,参加,元旦促销>。进而,根据确定出三元语义槽可以确定出相应的序列生成元素,进而根据序列生成元素生成回复序列。
请参阅图8~图10,图8示出的是根据本公开一示例实施方式的字符序列生成方法的用户界面示意图,图9示出的是根据本公开另一示例实施方式的字符序列生成方法的用户界面示意图,图10示出的是根据本公开又一示例实施方式的字符序列生成方法的用户界面示意图。
当用户输入字符序列“我要买女式牛仔裤”时,可以对该字符序列进行分析输出相关的商品链接以及预设信息“小选为您找到了以下商品”。当用户针对商品链接输入第一回复序列“咨询详情”时,可以根据联系上下文输出相关的回复“您好,请描述对于商品的问题吧~”。当接收到用户输入的字符序列“是全棉的吗?”根据三元语义槽以及节点关系图可以进行上下文的元素承接,进而确定出用户所选的商品链接中的商品的材质,并生成相应的回复序列并输出,如,“女士天丝棉弹小脚牛仔裤的材质是:63.2%棉20%聚酯纤维14.8%莱赛尔2%氨纶”。进而,检测到用户输入的字符序列“我身材170 110斤穿什么尺码好呢”时,可以识别出用户询问的是尺码,输出关于上述商品的尺码表。进而,检测到用户输入的字符序列“现在有折扣吗”,可以识别出用户询问的是该商品的促销信息,根据该商品在节点关系图中所对应的关系词可知,该商品未参加促销活动,进而输出回复序列“抱歉,该商品目前没有参加促销活动哦”,进而,检测到用户输入的字符序列“裤型是什么”,可以识别出用户询问的是该商品的款式,根据该商品在节点关系图中所对应的裤型属性节点可以输出相对应的回复序列“女士天丝棉弹小脚牛仔裤的款式是:修身型”。
根据图8~10所示的用户界面示意图可知,实施本申请中的实施例,能够提升回复用户信息的自动化程度以及智能程度,改善用户的使用体验,提升用户的使用黏度。此外,还能够提升消息回复的及时性,降低人工回复的成本。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
示例性介质
在介绍了本公开示例性实施方式的方法之后,接下来,对本公开示例性实施方式的介质进行说明。
在一些可能的实施方式中,本公开的各个方面还可以实现为一种介质,其上存储有程序代码,当程序代码被设备的处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的字符序列生成方法中的步骤。
具体地,所述设备的处理器执行所述程序代码时用于实现如下步骤:当检测到字符序列时,识别字符序列中的关键词序列;确定节点关系图中与关键词序列对应的目标节点,节点关系图用于通过节点连接关系表征关键词之间的关联关系;根据对字符序列间字符依存关系的分析,生成用于表示字符依存关系的语义结构;根据语义结构、目标节点以及节点关系图确定序列生成元素,并根据序列生成元素生成与字符序列相匹配的目标字符序列。
在本公开的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:计算字符序列对应的特征向量,并根据特征向量获取字符序列对应的语义内容;根据语义内容确定字符序列的所属类型;若所属类型为咨询类,则识别字符序列中的关键词序列;其中,咨询类包括商品信息咨询以及促销信息咨询中至少一种。
在本公开的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:对字符序列进行分词处理,得到多个分词,并对多个分词进行词型标注;根据预标注的样本分词训练词型识别模型,并根据训练后的词型识别模型识别词型标注结果中的关键词序列;其中,关键词序列包括实体词、属性名词、属性值词、属性修饰词以及关系词中至少一种。
在本公开的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:检测关键词序列中是否包括属性名词、属性值词以及关系词中至少一个;如果不包括属性名词、属性值词以及关系词,则对关键词序列进行文本切分,并依据文本切分结果对应的特征向量对关键词序列进行语义分析,以从节点关系图中确定出与关键词序列对应的目标节点。
在本公开的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:根据字符序列与同义词库的比对,确定与字符序列对应的实体,并确定节点关系图中实体对应的所有属性节点;计算所有属性节点分别对应的第一特征向量以及关键词序列对应的第二特征向量;计算第一特征向量与第二特征向量之间的相似度;根据相似度从所有属性节点中选取与关键词序列对应的目标节点。
在本公开的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:确定所有属性节点中包括的属性名词和属性值词,所有属性节点中任意两个属性节点中包括的属性名词不同;对各属性节点中的属性名词的特征向量和属性值词的特征向量进行加权处理,并计算加权结果对应的平均值;将平均值分别确定为对应的属性节点的第一特征向量。
在本公开的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:根据同义词库匹配出与关键词序列对应的标准词汇;从节点关系图中匹配与标准词汇对应的目标节点候选集,并从目标节点候选集中选取与关键词序列对应的目标节点。
在本公开的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:根据对字符序列间字符依存关系的分析,确定字符序列中各字符对应的依存关系;其中,依存关系包括主语、谓语以及宾语中至少一种;根据依存关系生成用于表示字符依存关系的语义结构。
在本公开的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:根据语义结构确定三元语义槽对应的实体,并将目标节点对应的属性名词确定为三元语义槽对应的属性名词,以及,根据三元语义槽对应的实体和三元语义槽对应的属性名词确定三元语义槽对应的属性值词;根据三元语义槽对应的实体、三元语义槽对应的属性名词以及三元语义槽对应的属性值词确定序列生成元素;或者,
根据语义结构和目标节点候选集确定三元语义槽对应的第一实体,并将目标节点对应的关系词确定为三元语义槽对应的关系词,以及,根据三元语义槽对应的第一实体和三元语义槽对应的关系词确定三元语义槽对应的第二实体;根据三元语义槽对应的第一实体、三元语义槽对应的关系词以及第二实体确定所述序列生成元素,第二实体与第一实体通过关系词进行连接。
在本公开的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:按照预设语序排列序列生成元素,并根据排列结果生成与字符序列相匹配的目标字符序列。
在本公开的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:输出目标字符序列并在检测到用户输入的第一回复序列后,基于三元语义槽生成第二回复序列并输出。
需要说明的是:上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、RF等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性装置
在介绍了本公开示例性实施方式的介质之后,接下来,参考图11对本公开示例性实施方式的字符序列生成装置进行说明。
请参阅图11,图11示出的是根据本公开一示例实施方式的字符序列生成装置的结构框图。如图11所示,本公开一示例实施方式的字符序列生成装置包括:关键词序列识别单元1101、目标节点确定单元1102、语义结构生成单元1103以及字符序列生成单元1104,其中:
关键词序列识别单元1101,用于当检测到字符序列时,识别字符序列中的关键词序列;
目标节点确定单元1102,用于确定节点关系图中与关键词序列对应的目标节点,节点关系图用于通过节点连接关系表征关键词之间的关联关系;
语义结构生成单元1103,用于根据对字符序列间字符依存关系的分析,生成用于表示字符依存关系的语义结构;
字符序列生成单元1104,用于根据语义结构、目标节点以及节点关系图确定序列生成元素,并根据序列生成元素生成与字符序列相匹配的目标字符序列。
可见,实施图11所示的对象匹配装置,能够提升回复用户信息的自动化程度以及智能程度,改善用户的使用体验,提升用户的使用黏度。此外,还能够提升消息回复的及时性,降低人工回复的成本。
作为一种可选的实施方式,关键词序列识别单元1101识别字符序列中的关键词序列的方式具体可以为:
关键词序列识别单元1101计算字符序列对应的特征向量,并根据特征向量获取字符序列对应的语义内容;
关键词序列识别单元1101根据语义内容确定字符序列的所属类型;
若所属类型为咨询类,关键词序列识别单元1101识别字符序列中的关键词序列;其中,咨询类包括商品信息咨询以及促销信息咨询中至少一种。
可见,实施该可选的实施例,能够对字符类型的所属类型进行识别,有针对性的识别咨询类的字符序列中的关键词序列,降低对计算资源的浪费,提升计算效率。
作为一种可选的实施方式,关键词序列识别单元1101识别字符序列中的关键词序列的方式具体可以为:
关键词序列识别单元1101对字符序列进行分词处理,得到多个分词,并对多个分词进行词型标注;
关键词序列识别单元1101根据预标注的样本分词训练词型识别模型,并根据训练后的词型识别模型识别词型标注结果中的关键词序列;其中,关键词序列包括实体词、属性名词、属性值词、属性修饰词以及关系词中至少一种。
可见,实施该可选的实施例,能够通过词型标注确定出关键词序列,解决了不同用户针对同一语义可能输入不同词汇进而导致关键词序列提取准确率较低的问题,提升了对于关键词序列的提取效率以及提取准确率。
作为一种可选的实施方式,目标节点确定单元1102确定节点关系图中与关键词序列对应的目标节点的方式具体可以为:
目标节点确定单元1102检测关键词序列中是否包括属性名词、属性值词以及关系词中至少一个;
如果不包括属性名词、属性值词以及关系词,目标节点确定单元1102对关键词序列进行文本切分,并依据文本切分结果对应的特征向量对关键词序列进行语义分析,以从节点关系图中确定出与关键词序列对应的目标节点。
可见,实施该可选的实施例,能够对不包括属性名词、属性值词以及关系词的关键词序列进行识别,从而确定与其对应的目标节点,提升了对于用户输入的字符序列的识别范围,有利于针对性地输出相对应的回复,改善用户的使用体验。
作为一种可选的实施方式,关键词序列包括属性名词和/或属性值词,目标节点确定单元1102确定节点关系图中与关键词序列对应的目标节点的方式具体可以为:
目标节点确定单元1102根据字符序列与同义词库的比对,确定与字符序列对应的实体,并确定节点关系图中实体对应的所有属性节点;
目标节点确定单元1102计算所有属性节点分别对应的第一特征向量以及关键词序列对应的第二特征向量;
目标节点确定单元1102计算第一特征向量与第二特征向量之间的相似度;
目标节点确定单元1102根据相似度从所有属性节点中选取与关键词序列对应的目标节点。
可见,实施该可选的实施例,能够通过计算向量相似度的方式从多个属性节点中选取出于关键词序列相对应的目标节点,进而有利于根据该目标节点生成目标字符序列(如,待回复用户的文本信息),提升了对于目标字符序列的生成准确率。
作为一种可选的实施方式,目标节点确定单元1102计算所有属性节点分别对应的第一特征向量的方式具体可以为:
目标节点确定单元1102确定所有属性节点中包括的属性名词和属性值词,所有属性节点中任意两个属性节点中包括的属性名词不同;
目标节点确定单元1102对各属性节点中的属性名词的特征向量和属性值词的特征向量进行加权处理,并计算加权结果对应的平均值;
目标节点确定单元1102将平均值分别确定为对应的属性节点的第一特征向量。
可见,实施该可选的实施例,能够通过对于属性节点对应的特征向量的计算,有利于更准确地从多个属性节点中选取与关键词序列对应的目标节点,进而提升对于目标字符序列的生成准确率。
作为一种可选的实施方式,关键词序列包括关系词,目标节点确定单元1102确定节点关系图中与关键词序列对应的目标节点的方式具体可以为:
目标节点确定单元1102根据同义词库匹配出与关键词序列对应的标准词汇;
目标节点确定单元1102从节点关系图中匹配与标准词汇对应的目标节点候选集,并从目标节点候选集中选取与关键词序列对应的目标节点。
可见,实施该可选的实施例,能够确定出关键词序列中关系词对应的目标节点,增加了目标字符序列的生成多样性,提升了后续生成的目标字符序列与用户输入的字符序列之间的相匹配程度,减少了答非所问的可能性,进而改善用户的使用体验。
作为一种可选的实施方式,语义结构生成单元1103根据对字符序列间字符依存关系的分析,生成用于表示字符依存关系的语义结构的方式具体可以为:
语义结构生成单元1103根据对字符序列间字符依存关系的分析,确定字符序列中各字符对应的依存关系;其中,依存关系包括主语、谓语以及宾语中至少一种;
语义结构生成单元1103根据依存关系生成用于表示字符依存关系的语义结构。
可见,实施该可选的实施例,能够通过对字符序列的语义分析,确定出字符间的依存关系,进而可以根据该依存关系确定目标字符序列,提升了生成目标字符序列的准确率。
作为一种可选的实施方式,序列生成元素包括属性名词、属性值词和实体中至少一种,字符序列生成单元1104根据语义结构、目标节点以及节点关系图确定序列生成元素的方式具体可以为:
字符序列生成单元1104根据语义结构确定三元语义槽对应的实体,并将目标节点对应的属性名词确定为三元语义槽对应的属性名词,以及,根据三元语义槽对应的实体和三元语义槽对应的属性名词确定三元语义槽对应的属性值词;根据三元语义槽对应的实体、三元语义槽对应的属性名词以及三元语义槽对应的属性值词确定序列生成元素;或者,
字符序列生成单元1104根据语义结构和目标节点候选集确定三元语义槽对应的第一实体,并将目标节点对应的关系词确定为三元语义槽对应的关系词,以及,根据三元语义槽对应的第一实体和三元语义槽对应的关系词确定三元语义槽对应的第二实体;根据三元语义槽对应的第一实体、三元语义槽对应的关系词以及第二实体确定所述序列生成元素,第二实体与第一实体通过关系词进行连接。
可见,实施该可选的实施例,能够通过实体、属性名词、属性值词确定序列生成元素,也可以通过第一实体、关系词、第二实体确定序列生成元素,扩大了本申请的应用范围。
作为一种可选的实施方式,字符序列生成单元1104根据序列生成元素生成与字符序列相匹配的目标字符序列的方式具体可以为:
字符序列生成单元1104按照预设语序排列序列生成元素,并根据排列结果生成与字符序列相匹配的目标字符序列。
可见,实施该可选的实施例,能够通过生成与用户输入的字符序列相匹配的目标字符序列,提升自动回复的智能化程度,改善用户的使用体验,提升用户的使用黏度。
作为一种可选的实施方式,字符序列生成单元1104,还用于在根据序列生成元素生成与字符序列相匹配的目标字符序列之后,输出目标字符序列并在检测到用户输入的第一回复序列后,基于三元语义槽生成第二回复序列并输出。
可见,实施该可选的实施例,能够通过三元语义槽的元素承接,实现上下文的多轮问答,进而改善用户的使用体验,提升用户的使用黏度。
应当注意,尽管在上文详细描述中提及了对象匹配装置的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
示例性电子设备
在介绍了本公开示例性实施方式的方法、介质和装置之后,接下来,介绍根据本公开的另一示例性实施方式的电子设备。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图12来描述根据本公开的又一可选示例实施方式的字符序列生成装置1200。图12显示的字符序列生成装置1200仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图12所示,字符序列生成装置1200以电子设备的形式表现。字符序列生成装置1200的组件可以包括但不限于:上述至少一个处理单元1210、上述至少一个存储单元1220、连接不同系统组件(包括存储单元1220和处理单元1210)的总线1230。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1210执行,使得所述处理单元1210执行本说明书上述示例性方法的描述部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元1210可以执行如图1和图2中所示的各个步骤。
存储单元1220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)12201和/或高速缓存存储单元12202,还可以进一步包括只读存储单元(ROM)12203。
存储单元1220还可以包括具有一组(至少一个)程序模块12205的程序/实用工具12204,这样的程序模块12205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
字符序列生成装置1200也可以与一个或多个外部设备1300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与字符序列生成装置1200交互的设备通信,和/或与使得该字符序列生成装置1200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1250进行。并且,字符序列生成装置1200还可以通过网络适配器1260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图12所示,网络适配器1260通过总线1230与字符序列生成装置1200的其它模块通信。应当明白,尽管图中未示出,可以结合字符序列生成装置1200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所发明的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (10)
1.一种字符序列生成方法,其特征在于,包括:
当检测到字符序列时,识别所述字符序列中的关键词序列;
确定节点关系图中与所述关键词序列对应的目标节点,所述节点关系图用于通过节点连接关系表征关键词之间的关联关系;
根据对所述字符序列间字符依存关系的分析,生成用于表示所述字符依存关系的语义结构;
根据所述语义结构、所述目标节点以及所述节点关系图确定序列生成元素,并根据所述序列生成元素生成与所述字符序列相匹配的目标字符序列。
2.根据权利要求1所述的方法,其特征在于,识别所述字符序列中的关键词序列,包括:
计算所述字符序列对应的特征向量,并根据所述特征向量获取所述字符序列对应的语义内容;
根据所述语义内容确定所述字符序列的所属类型;
若所述所属类型为咨询类,则识别所述字符序列中的关键词序列;其中,所述咨询类包括商品信息咨询以及促销信息咨询中至少一种。
3.根据权利要求2所述的方法,其特征在于,识别所述字符序列中的关键词序列,包括:
对所述字符序列进行分词处理,得到多个分词,并对所述多个分词进行词型标注;
根据预标注的样本分词训练词型识别模型,并根据训练后的词型识别模型识别词型标注结果中的关键词序列;其中,所述关键词序列包括实体词、属性名词、属性值词、属性修饰词以及关系词中至少一种。
4.根据权利要求3所述的方法,其特征在于,确定节点关系图中与所述关键词序列对应的目标节点,包括:
检测所述关键词序列中是否包括所述属性名词、所述属性值词以及所述关系词中至少一个;
如果不包括所述属性名词、所述属性值词以及所述关系词,则对所述关键词序列进行文本切分,并依据所述文本切分结果对应的特征向量对所述关键词序列进行语义分析,以从所述节点关系图中确定出与所述关键词序列对应的目标节点。
5.根据权利要求3所述的方法,其特征在于,所述关键词序列包括所述属性名词和/或所述属性值词,确定节点关系图中与所述关键词序列对应的目标节点,包括:
根据所述字符序列与同义词库的比对,确定与所述字符序列对应的实体,并确定所述节点关系图中所述实体对应的所有属性节点;
计算所述所有属性节点分别对应的第一特征向量以及所述关键词序列对应的第二特征向量;
计算所述第一特征向量与所述第二特征向量之间的相似度;
根据所述相似度从所述所有属性节点中选取与所述关键词序列对应的目标节点。
6.根据权利要求5所述的方法,其特征在于,计算所述所有属性节点分别对应的第一特征向量,包括:
确定所述所有属性节点中包括的属性名词和属性值词,所述所有属性节点中任意两个属性节点中包括的属性名词不同;
对各所述属性节点中的属性名词的特征向量和属性值词的特征向量进行加权处理,并计算加权结果对应的平均值;
将所述平均值分别确定为对应的所述属性节点的第一特征向量。
7.根据权利要求3所述的方法,其特征在于,所述关键词序列包括所述关系词,确定节点关系图中与所述关键词序列对应的目标节点,包括:
根据同义词库匹配出与所述关键词序列对应的标准词汇;
从所述节点关系图中匹配与所述标准词汇对应的目标节点候选集,并从所述目标节点候选集中选取与所述关键词序列对应的目标节点。
8.一种字符序列生成装置,其特征在于,包括:
关键词序列识别单元,用于当检测到字符序列时,识别所述字符序列中的关键词序列;
目标节点确定单元,用于确定节点关系图中与所述关键词序列对应的目标节点,所述节点关系图用于通过节点连接关系表征关键词之间的关联关系;
语义结构生成单元,用于根据对所述字符序列间字符依存关系的分析,生成用于表示所述字符依存关系的语义结构;
字符序列生成单元,用于根据所述语义结构、所述目标节点以及所述节点关系图确定序列生成元素,并根据所述序列生成元素生成与所述字符序列相匹配的目标字符序列。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如权利要求1至7中任一项所述的字符序列生成方法。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的字符序列生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010095894.2A CN111353298A (zh) | 2020-02-17 | 2020-02-17 | 字符序列生成方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010095894.2A CN111353298A (zh) | 2020-02-17 | 2020-02-17 | 字符序列生成方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111353298A true CN111353298A (zh) | 2020-06-30 |
Family
ID=71194008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010095894.2A Pending CN111353298A (zh) | 2020-02-17 | 2020-02-17 | 字符序列生成方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111353298A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN110502621A (zh) * | 2019-07-03 | 2019-11-26 | 平安科技(深圳)有限公司 | 问答方法、问答装置、计算机设备及存储介质 |
-
2020
- 2020-02-17 CN CN202010095894.2A patent/CN111353298A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN110502621A (zh) * | 2019-07-03 | 2019-11-26 | 平安科技(深圳)有限公司 | 问答方法、问答装置、计算机设备及存储介质 |
Non-Patent Citations (8)
Title |
---|
周小强: ""基于深度学习的交互式问答技术研究"", 《中国博士学位论文全文数据库 信息科技辑》, no. 01, pages 138 - 268 * |
文博: ""面向智能客服机器人的交互式问句理解研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 03, pages 140 - 733 * |
朱频频: "《智能客户服务技术与应用》", 中国铁道出版社, pages: 146 - 147 * |
胡松江: ""基于知识图谱的问答系统问句理解方法研究"", no. 02, pages 138 - 2184 * |
赵鑫禄: ""基于深度学习的封闭域任务型对话系统研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 08, pages 138 - 315 * |
郭天翼 等: ""自然语言处理领域中的自动问答研究进展"", 《武汉大学学报(理学版)》, vol. 65, no. 05, pages 417 - 426 * |
陈健鹏 等: ""基于多轮交互的人机对话系统综述"", 《南京信息工程大学学报(自然科学版)》, vol. 11, no. 03, pages 256 - 268 * |
马晨浩: ""基于甲状腺知识图谱的自动问答系统设计与实现"", no. 06, pages 080 - 8 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111309915A (zh) | 联合学习的自然语言训练方法、系统、设备及存储介质 | |
Fonseca et al. | A two-step convolutional neural network approach for semantic role labeling | |
CN109598517B (zh) | 商品通关处理、对象的处理及其类别预测方法和装置 | |
CN111062220B (zh) | 一种基于记忆遗忘装置的端到端意图识别系统和方法 | |
US20230394247A1 (en) | Human-machine collaborative conversation interaction system and method | |
CN114329225B (zh) | 基于搜索语句的搜索方法、装置、设备及存储介质 | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN112699645B (zh) | 语料标注方法、装置及设备 | |
CN111177351A (zh) | 基于规则的自然语言表达意图获取方法、装置和系统 | |
CA3147634A1 (en) | Method and apparatus for analyzing sales conversation based on voice recognition | |
CN112115242A (zh) | 一种基于朴素贝叶斯分类算法的智能客服问答系统 | |
CN113051380A (zh) | 信息生成方法、装置、电子设备和存储介质 | |
Saranya et al. | A Machine Learning-Based Technique with IntelligentWordNet Lemmatize for Twitter Sentiment Analysis. | |
CN113204643B (zh) | 一种实体对齐方法、装置、设备及介质 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
US20210165833A1 (en) | Method and apparatus for question-answering using a database consist of query vectors | |
CN116070620A (zh) | 一种基于大数据的信息处理方法及系统 | |
CN111353298A (zh) | 字符序列生成方法、装置、设备及计算机可读存储介质 | |
CN115640378A (zh) | 工单检索方法、服务器、介质及产品 | |
CN115617964A (zh) | 营销私域运营场景的对话方法、系统、计算机及存储介质 | |
CN114186119A (zh) | 信息推荐方法及装置和构建邻域知识图谱的方法及装置 | |
CN112883183A (zh) | 构建多分类模型的方法、智能客服方法和相关装置及系统 | |
CN114090725A (zh) | 情感预测模型的训练方法及装置 | |
CN112215005A (zh) | 实体识别方法及装置 | |
CN111460107A (zh) | 一种应答方法和应答系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |