CN113763135A - 商品数据对比方法、装置、电子设备和存储介质 - Google Patents

商品数据对比方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113763135A
CN113763135A CN202111110903.1A CN202111110903A CN113763135A CN 113763135 A CN113763135 A CN 113763135A CN 202111110903 A CN202111110903 A CN 202111110903A CN 113763135 A CN113763135 A CN 113763135A
Authority
CN
China
Prior art keywords
commodity
data
entity
semantic
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111110903.1A
Other languages
English (en)
Inventor
孙孟哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Information Technology Co Ltd
Original Assignee
Jingdong Technology Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Information Technology Co Ltd filed Critical Jingdong Technology Information Technology Co Ltd
Priority to CN202111110903.1A priority Critical patent/CN113763135A/zh
Publication of CN113763135A publication Critical patent/CN113763135A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0629Directed, with specific intent or strategy for generating comparisons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供一种商品数据对比方法、装置、电子设备和存储介质,所述方法包括:对用户针对待对比商品进行提问得到的商品提问数据进行语义预理解,得到语义数据;对所述语义数据进行命名实体识别,得到提问实体;根据所述提问实体在预建的知识库中进行查询,得到与所述提问实体相似的在库实体,其中,所述预建的知识库包括预建的知识图谱的实体;根据所述在库实体在所述预建的知识图谱中进行查询,得到所述在库实体间的抽象关系;根据所述抽象关系进行知识推理,得到所述待对比商品数据对比结果。本公开的技术方案可以提高回答用户提问时的商品对比的便捷性。

Description

商品数据对比方法、装置、电子设备和存储介质
技术领域
本公开涉及计算机网络技术领域,尤其涉及一种商品数据对比方法、装置、电子设备和非暂态计算机可读存储介质。
背景技术
目前,社会上除了存在汽车、电脑、手机等有形的商品之外,还存在有保险、理财产品等无形的商品。在相关技术中,保险等行业的业务人员在处理客户咨询时,会遇到客户对不同保险商品的对比情况的询问。
当前在对保险条款进行对比的过程中,一般通过算法、规则和人工结合的方式进行条款解读对比。具体地,首先对保险条款的音频或图片进行语音、图片的转换得到文本数据,再对文本数据进行分词、属性识别得到保险条款的关键属性信息,再建立该保险的属性数据库,最后再针对客户提问的保险商品进行检索并对比属性,如保险A和保险B的属性对比,保期X年:Y年。
上述方案通过建立的属性数据库进行关键信息的对比,但客户使用场景多种多样,比如当用户提问“保险A和保险B,哪个保期更长,适合60岁的人?”单纯的检索系统即无法生效,从而得不到正确的答案,也就无法便捷地完成商品对比任务。
发明内容
本公开提供一种商品数据对比方法、装置、电子设备和非暂态计算机可读存储介质,用以解决现有技术中用户提问场景下的商品对比不够便捷的缺陷,提高商品数据对比的便捷性。
本公开提供一种商品数据对比方法,包括:对用户针对待对比商品进行提问得到的商品提问数据进行语义预理解,得到语义数据;对所述语义数据进行命名实体识别,得到提问实体;根据所述提问实体在预建的知识库中进行查询,得到与所述提问实体相似的在库实体,其中,所述预建的知识库包括预建的知识图谱的实体;根据所述在库实体在所述预建的知识图谱中进行查询,得到所述在库实体间的抽象关系;根据所述抽象关系进行知识推理,得到所述待对比商品数据对比结果。
根据本公开提供的一种商品数据对比方法,所述知识图谱的建立过程包括:对商品的商品特征数据进行自然语言理解,得到所述商品的商品实体,其中,所述商品特征数据为文本数据;根据所述商品实体对所述商品特征数据进行关系抽取,得到所述商品的商品关系;根据所述商品实体和所述商品关系进行语义关系分析,以建立所述知识图谱。
根据本公开提供的一种商品数据对比方法,所述对商品的商品特征数据进行自然语言理解,包括:对所述商品特征数据进行规范化处理,所述规范化处理至少包括以下一种步骤:繁体字至简体字转换、汉字至阿拉伯数字转换以及错别字纠正。
根据本公开提供的一种商品数据对比方法,对用户针对待对比商品进行提问得到的商品提问数据进行语义预理解,包括:对所述商品提问数据进行上下文补全。
根据本公开提供的一种商品数据对比方法,所述对所述商品提问数据进行上下文补全,包括:获取所述商品提问数据的有效信息,所述有效信息包括所述商品提问数据的业务场景分类数据、领域分类数据和提问意图数据;利用依存句法解析获取所述商品提问数据的缺失成分;根据所述有效信息和所述缺失成分对所述商品提问数据进行上下文补全。
根据本公开提供的一种商品数据对比方法,所述对所述语义数据进行命名实体识别,得到提问实体,包括:采用规则字典和深度神经网络模型对所述语义数据进行命名实体识别。
根据本公开提供的一种商品数据对比方法,根据所述商品实体对所述商品特征数据进行关系抽取,包括:依次采用预设的Transformer的双向编码器表示BERT模型和预设的中文预训练模型对所述商品特征数据进行关系抽取。
根据本公开提供的一种商品数据对比方法,所述获取所述商品提问数据的有效信息,包括:根据预设的支持向量机和预设的卷积网络模型对所述商品提问数据进行分类和意图匹配,得到所述有效信息。
根据本公开提供的一种商品数据对比方法,所述对用户针对待对比商品进行提问得到的商品提问数据进行语义预理解之前,所述方法还包括:在用户进行提问时,进行多轮对话处理;所述多轮对话处理包括:在所述用户进行槽位识别后,根据多轮场景树对所述用户进行对话引导,以得到所述商品提问数据。
根据本公开提供的一种商品数据对比方法,所述对用户针对待对比商品进行提问得到的商品提问数据进行语义预理解之前,所述方法还包括:对所述商品提问数据进行语义消歧。
根据本公开提供的一种商品数据对比方法,所述根据所述抽象关系进行知识推理,得到所述待对比商品数据对比结果之后,所述方法还包括:根据所述对比结果对所述用户进行新商品推荐。
本公开还提供一种商品数据对比装置,所述装置包括:预理解单元,用于对用户针对待对比商品进行提问得到的商品提问数据进行语义预理解,得到语义数据;实体识别单元,用于对所述语义数据进行命名实体识别,得到提问实体;第一查询单元,用于根据所述提问实体在预建的知识库中进行查询,得到与所述提问实体相似的在库实体,其中,所述预建的知识库包括预建的知识图谱的实体;第二查询单元,用于根据所述在库实体在所述预建的知识图谱中进行查询,得到所述在库实体间的抽象关系;推理单元,用于根据所述抽象关系进行知识推理,得到所述待对比商品数据对比结果。
根据本公开提供的一种商品数据对比装置,所述装置还包括:语言理解单元,用于对商品的商品特征数据进行自然语言理解,得到所述商品的商品实体,其中,所述商品特征数据为文本数据;关系抽取单元,用于根据所述商品实体对所述商品特征数据进行关系抽取,得到所述商品的商品关系;关系分析单元,用于根据所述商品实体和所述商品关系进行语义关系分析,以建立所述知识图谱。
本公开还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述商品数据对比方法的步骤。
本公开还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述商品数据对比方法的步骤。
本公开提供的商品数据对比方法、装置、电子设备和非暂态计算机可读存储介质,对商品提问数据进行语义预理解和命名实体识别后,通过在预建的知识库和知识图谱中进行查询,得到商品提问数据的实体间的抽象关系,进而得到对比商品数据对比结果,相比较现有技术中人工进行查询处理,可以提高商品对比的便捷性。
附图说明
为了更清楚地说明本公开或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开提供的商品数据对比方法的流程示意图;
图2是本公开提供的知识图谱的建立过程的流程示意图;
图3是本公开提供的关系抽取的流程示意图;
图4是本公开提供的语义分析过程的流程示意图;
图5是本公开提供的语义关系的结构示意图之一;
图6是本公开提供的语义关系的结构示意图之二;
图7是本公开提供的对商品提问数据进行上下文补全的流程示意图之一;
图8是本公开提供的对商品提问数据进行上下文补全的流程示意图之二;
图9是本公开提供的命名实体识别过程的流程示意图;
图10是本公开提供的输入对话管理结构的结构示意图;
图11是本公开提供的商品对比系统的结构示意图;
图12是本公开提供的商品数据对比装置的结构示意图;
图13是本公开提供的电子设备的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合本公开中的附图,对本公开中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
在本公开一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开一个或多个实施例。在本公开一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本公开一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
下面结合图1至图13对本公开示例实施方式进行详细说明。
如图1所示的是本公开实施例的商品数据对比方法的流程图。本公开实施例提供的方法可以由任意具备计算机处理能力的电子设备执行,例如终端或服务器。如图1所示,该商品数据对比方法包括:
步骤102,对用户针对待对比商品进行提问得到的商品提问数据进行语义预理解,得到语义数据。
具体地,待对比商品可以为两种商品,商品提问数据是一种文本数据,其内容可以为一个关于两种待对比商品的某个方面的对比问题。语义数据是由商品提问数据经过规范化处理的得到的。
步骤104,对语义数据进行命名实体识别,得到提问实体。
步骤106,根据提问实体在预建的知识库中进行查询,得到与提问实体相似的在库实体,其中,预建的知识库包括预建的知识图谱的实体。
具体地,命名实体识别(Named Entity Recognition,简称NER)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。提问实体指的是语义数据中的实体,在库实体是指知识库中与提问实体相似的实体。这里,实体是一种对客观主题的抽象。
步骤108,根据在库实体在预建的知识图谱中进行查询,得到在库实体间的抽象关系。
具体地,知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性值对。实体间通过关系相互联结,构成网状的知识结构。关系指的是实体之间关系的抽象,抽象关系指的是两个在库实体之间的关系的抽象。
步骤110,根据抽象关系进行知识推理,得到待对比商品数据对比结果。
具体地,知识推理指的是面向知识图谱的推理,其主要围绕关系的推理展开,即基于知识图谱中已有的事实或关系推断出未知的事实或关系,一般着重考察实体、关系和图谱结构三个方面的特征信息。知识图谱推理主要能够辅助推理出新的事实、新的关系、新的公理以及新的规则。
在本公开实施例中,通过预先建设知识库和知识图谱,在获取语义数据并进行命名实体识别后,根据命名实体识别得到的提问实体在知识库和知识图谱中进行查询并推理,得到对比结果,实现了对商品数据对比,提高了商品对比的便捷性。
在步骤102之前,需要预先建立知识图谱,如图2所示,知识图谱的建立过程包括:
步骤201,对商品的商品特征数据进行自然语言理解(Natural LanguageProcessing,简称NLU),得到商品的商品实体,其中,商品特征数据为文本数据。
步骤202,根据商品实体对商品特征数据进行关系抽取,得到商品的商品关系。
步骤203,根据商品实体和商品关系进行语义关系分析,以建立知识图谱。
本公开实施例可以应用于保险行业,这时,商品可以为保险产品。具体地,在步骤201之前,需要获取商品特征数据,该商品特征数据可以由对至少两份PDF(PortableDocument Format,可携带文档格式)格式的保单进行OCR(Optical CharacterRecognition,光学字符识别)识别得到。
在步骤201中,自然语言理解主要用于理解文本和信息提取。具体来说,就是理解语言、文本等数据,提取出有用的信息,用于下游的任务。它可以是使自然语言结构化,比如分词、词性标注、句法分析等;也可以是表征学习,字、词、句子、文档的向量表示(Embedding),构建文本表示的文本分类;还可以是信息提取,如信息检索或者是如信息抽取。其中,信息检索可以为个性化搜索和语义搜索和文本匹配,信息抽取可以为命名实体提取、关系抽取和事件抽取。NLU处理的文本单元可以为词(term)、句子(sentence)、文档(document)三种不同的类型。
在步骤201中,条款解析模型对文本进行自然语言理解,进行分词、命名实体识别,并建立知识图谱;NLU作为问题理解的重要步骤,主要包括以下处理流程:
需要首先对商品特征数据进行规范化处理,再对商品特征数据进行命名实体识别,以得到商品实体。在对规范化处理时,可以进行繁体字至简体字转换、汉字至阿拉伯数字转换以及错别字纠正。
具体地,在进行繁体字至简体字转换时,利用通用繁简字映射表,进行繁简字的转换处理。在进行汉字至阿拉伯数字转换时,首先对汉语数字区间进行NER识别,其次利用汉语数字表达的逻辑,进行汉语转阿拉伯数字处理。在进行错别字纠正时,首先利用Trie树数据结构,存储所有连续短语/拼音转移情况,再利用Ngram模型,挖掘所有字/词/拼音的转移概率,然后根据困惑度,判断问题文本是否表达通顺,利用Ngram召回所有实际可能表达的短语,结合Trie树和拼音,进一步排序实际可能的短语,达到合理阈值并进行替换。其中,Trie树,又叫字典树、前缀树(Prefix Tree)、单词查找树或键树,是一种多叉树结构。
此外,还可以通过对商品提问数据进行语义消歧的方式进一步对商品特征数据进行规范化处理。
歧义词汇是指具有多种语义的词汇,即在上下文中存在一词多义的现象。词义消歧(word sense disambiguation,wsd)是对一词多义现象的处理,从而确定歧义词的真实语义。歧义词汇在某个特定的上下文语境中只有一个语义,通过上下文进行消歧,采用一定的方法和算法,使得计算机能够理解歧义词汇的真实语义,这就是词义消歧的过程。词义消歧可以影响搜索引擎、意见挖掘、文本理解与产生、推理等任务的性能。
词义消歧主要包括有监督的学习方法和无监督的学习方法。在本发明实施例中,可以采用基于知识图谱的词义消歧方法,也可以采用基于深度学习模型的词义消歧方法,且并不局限于此。
在步骤202中,在对问题进行实体识别后,为了生成更加准备的查询语句,我们还会对问题进行关系抽取的工作。主要是将实体和问题作为输入来映射到图中的边。目前采用BERT(Bidirectional Encoder Representation from Transformer,Transformer的双向编码器表示)模型来实现这个功能,并使用中文预训练模型来实现分类问题。其中,BERT模型是以无监督的方式利用大量无标注文本训练得到的语言模型。
具体地,如图3所示,采用预设的BERT模型和预设的中文预训练模型对商品特征数据进行关系抽取。根据句子301进行命名实体识别后得到实体302,结合分类任务303,通过BERT模型,可以得到关系305。
在步骤203中,进行如图4所示的语义关系分析,建立知识图谱的过程中,定义的语义关系最多包括四个实体,三条关系,根据客户问题中抽取的实体和关系,可以推理剩下的部分。
如表1所示的是不同的语义关系对应的问题举例。
表1语义关系与对应的问题举例
Figure BDA0003270656250000101
如图5和图6所示的即为如表1所示的各个语义关系与问题的关系。
基于图谱模型的语义理解可以有效地进行知识推理,并实现生成答案的效果,使得应答机器人更加智能、更加人性化。这样,可以把核心知识的维护带给业务的成本降低到最小,不需要维护复杂的相似文法,而是通过技术挖掘生成可拓展的知识图谱结构。
在步骤102之前,在用户进行提问时,进行多轮对话处理;多轮对话处理包括:在用户进行槽位识别后,根据多轮场景树对用户进行对话引导,以得到商品提问数据。
利用用户前后多轮对话,可以挖掘出深层次意图,保持用户对话的连贯性与连续性,在具有领域切换情况下保持多轮对话,可以在表达不明情况下通过信息填充补全作业进行提问数据的规划化处理。
在步骤102之前,在用户针对待对比商品进行提问得到的商品提问数据之后,需要对商品提问数据进行上下文补全。
具体地,如图7所示,上下文补全的过程包括以下步骤:
步骤701,获取商品提问数据的有效信息,有效信息包括商品提问数据的业务场景分类数据、领域分类数据和提问意图数据。
步骤702,利用依存句法解析获取商品提问数据的缺失成分。
步骤703,根据有效信息和缺失成分对商品提问数据进行上下文补全。
具体地,在步骤301之前,对商品提问数据进行分词,并进行词性解析基础处理。
在步骤301中,根据预设的支持向量机和预设的卷积网络模型对商品提问数据进行分类和意图匹配,得到有效信息。这里,分类包括上述业务场景分类数据、领域分类数据对应的业余分类和领域分类。
如图8所示,在步骤811中,可以利用SVM(Support Vector Machine,支持向量机)821对商品提问数据的业务场景进行分类,业务场景分类可以包括闲聊/有效业务信息查询的识别分类。其中,支持向量机是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。
在进行领域分类时,在步骤812中,可以利用CNN(Convolutional NeuralNetworks,卷积神经网络)模型+LR(Logistic Regression,逻辑回归)模型即逻辑回归+支持向量机822对商品提问数据进行领域分类。具体地,可以利用CNN模型对商品提问数据进行多维度的特征提取,将提取特征输入LR模型进行分类。这里,卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一,逻辑回归又称为逻辑回归分析,是分类和预测算法中的一种。领域分类包括公司信息查询/保险相关信息等具体业务信息查询的识别分类。
在分析提问意图数据时,在步骤813中,可以利用CNN(卷积神经网络)模型+Siamese(孪生结构)网络即卷积神经网络+孪生结构823进行语义挖掘和语义匹配,以达到识别用户意图的目的。利用CNN模型可以进行问题文本的特征提取,利用孪生结构网络可以对问题特征进行匹配,以最终获取最佳匹配意图。Siamese网络可以从数据中去学习一个相似性度量,并用这个学习出来的度量去比较和匹配新的未知类别的样本。
在步骤814中,利用依存句法解析824进行句法解析和成分提取,以获取指代词。在步骤816中,可以进行指代识别和确实成分识别,发现缺失成分与残缺句法等。
在步骤817中,将上下文有效信息和当前句子缺失成分进行匹配映射,利用语言模型Ngram 818进行语言合理性判断排序,即可以对商品提问数据进行上下文补全。这里,Ngram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成长度是N的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,列表中的每一种gram就是一个特征向量维度。
具体地,Ngram模型在利用统计思想获取用户语言习惯后,利用统计思想可以判断上下文补全后是否流畅通顺,即执行步骤819,进行上下文补全指代消解,以进一步纠正优化上下文补全效果,并输出最终上下文补全后的用户提问数据。
自然语言理解的作用是通过综合运用模型进行对句子的分类、语义识别、语义分析、句法依存和命名实体识别挖掘,实现对句子成分信息的全方位探测与挖掘,以理解用户意图。其中,上下文补全是自然语言理解的中心内容。
在步骤301获取商品提问数据的有效信息之后,还可以执行步骤815,对有效信息进行存储记忆。通过对有效信息进行有效存储,可以保持用户在不同场景的对话状态中,在切换领域下依然可以有效利用上下文,无缝切换。
在步骤104中,采用规则字典和深度神经网络模型对语义数据进行命名实体识别。
具体地,在步骤104中对语义数据进行命名实体识别,以及在步骤201中对规范化后的商品特征数据进行命名实体识别时,需要对商品词、询问内容、汉语数字和职业进行命名实体识别。在公开实施例中,可以采用规则字典和深度神经网络模型相结合的方式进行命名实体识别。规则字典能高效快速的对一些常见的实体进行识别,如商品词和疾病名称。但是有些实体很难用字典来实现,例如地点实体、体育运动识别和保障实体等。对于这类实体可以采用深度神经网络模型进行命名实体识别。
在使用规则字典方式进行命名实体识别时,可以使用正则表达式配合分词以及句型快速识别实体。在使用深度神经网络模型方式进行命名识别时,如图9所示,可以采用Bi-LSTM(Bi-directional Long Short-Term Memory,双向长短时记忆)+CRF(ConditionalRandom Field,条件随机场)模型进行命名实体识别。其中,CRF是自然语言处理的基础模型,广泛应用于中文分词、命名实体识别和词性标注等标注场景。Bi-LSTM和CRF各有优缺点,其中Bi-LSTM可以有效学习上下文关系,CRF可以保证标注序列的正确性,二者结合使用可以取长补短,更加准确地进行命名实体识别。
在步骤108之后,还根据对比结果对用户进行新商品推荐。例如,可以获取与在库实体相似的实体对应的商品作为新商品推荐给客户。
结合上述自然语言处理预处理后的数据,本公开实施例提供一种输入对话管理结构,以根据用户的提问进行相似度计算、关系抽取、知识推理、图谱查询操作,完成条款解读。
该输入对话管理结构使用前后端分离的设计思路,从可以提高开发效率并降低运维的成本。如图10所示,输入对话管理结构的前端框架1010采用了渐进式框架,其可以分为5个模块:用户状态及Session管理模块1011、卡片点选功能模块1013、多轮对话交互点选模块1014、对话存储模块1012和普通文本交互模块1015。其中,对话存储模块1012将对话数据存储到数据库1016中。输入对话管理结构通过负载均衡器1021进行负载的均衡,后台服务器1030包括第一服务器1031和第二服务器1032。
在本公开一种实施例中,针对问题:我45岁能不能投X保险,A好还是B好?需要基于年龄进行保险商品的判断推理。具体地,对比保险商品A与保险商品B时,可以将保险商品的商品数据从PDF中解析,并进行抽取、清洗、规范对齐、存入图谱等构建过程。之后,根据问题提取到实体X,通过知识图谱查询X的各属性值,然后比较异同,定位好保险节点,并比较节点内容,返回异同。
如图11所示,本公开实施例的商品数据对比方法可以由商品对比系统执行。具体地,商品对比系统包括语义预理解模块1110、单轮应答模块1120、多轮对话管理模块1130、基础数据库1140和数据处理工具1150。其中,语义预理解模块具有意图识别1111,实体识别1112,实体消歧113和上下文管理1113等功能。单轮应答模块具有相似度识别1121,关系抽取1122,知识推理1123和图谱查询1124等功能。多轮对话管理模块具有槽位识别1131,对话决策管理1132和商品推荐引擎1133等功能。基础数据库包括知识库1141,知识图谱1142和多轮场景树1143。数据处理工具具有保单PDF转文本1151,条款解析1152,图谱构建1153和三元组抽取1154等功能。
在本公开实施例中,使用图谱推理技术解决推理类对比问题。具体地,可以使用基于表示学习的方法将知识图谱中的实体与关系统映射至低维连续向量空间,以此来刻画它们的潜在语义特征。通过比较、匹配实体与关系的分布式表示,可以得到知识图谱中潜在成立的实体间的关系。
进一步地,本公开实施例通过光学字符识别、自然语言处理、知识图谱、智能对话等智能技术,解决了用户提问问题的口语化、非专业化造成的保险条款对比难度较大的问题,提高了商品对比的易用性,同时,在保险应用场景中,由于大部分保险条款为非结构化数据,通过本公开实施例的技术方案可实现结构化转化,从而更便于存储及数据分析。
本公开提供的商品数据对比方法,对商品提问数据进行语义预理解和命名实体识别后,通过在预建的知识库和知识图谱中进行查询,得到商品提问数据的实体间的抽象关系,进而得到对比商品数据对比结果,相比较现有技术中人工进行查询处理,可以提高商品对比的便捷性。
下面对本公开提供的商品数据对比装置进行描述,下文描述的商品数据对比装置与上文描述的商品数据对比方法可相互对应参照。
如图12所示,本公开实施例的一种商品数据对比装置,该装置包括:
预理解单元1202,用于对用户针对待对比商品进行提问得到的商品提问数据进行语义预理解,得到语义数据。
实体识别单元1204,用于对语义数据进行命名实体识别,得到提问实体.
第一查询单元1206,用于根据提问实体在预建的知识库中进行查询,得到与提问实体相似的在库实体,其中,预建的知识库包括预建的知识图谱的实体。
第二查询单元1208,用于根据在库实体在预建的知识图谱中进行查询,得到在库实体间的抽象关系。
推理单元1210,用于根据抽象关系进行知识推理,得到待对比商品数据对比结果。
此外,商品数据对比装置还可以包括:
语言理解单元,用于对商品的商品特征数据进行自然语言理解,得到商品的商品实体,其中,商品特征数据为文本数据。
关系抽取单元,用于根据商品实体对商品特征数据进行关系抽取,得到商品的商品关系。
关系分析单元,用于根据商品实体和商品关系进行语义关系分析,以建立知识图谱。
语言理解单元还可以用于:对所述商品特征数据进行规范化处理,所述规范化处理至少包括以下一种步骤:繁体字至简体字转换、汉字至阿拉伯数字转换以及错别字纠正。
预理解单元1202还可以用于:对所述商品提问数据进行上下文补全。
进一步地,预理解单元1202还用于:获取所述商品提问数据的有效信息,所述有效信息包括所述商品提问数据的业务场景分类数据、领域分类数据和提问意图数据;利用依存句法解析获取所述商品提问数据的缺失成分;根据所述有效信息和所述缺失成分对所述商品提问数据进行上下文补全。
实体识别单元1204,还可以用于:采用规则字典和深度神经网络模型对所述语义数据进行命名实体识别。
关系抽取单元,还用于:依次采用预设的Transformer的双向编码器表示BERT模型和预设的中文预训练模型对所述商品特征数据进行关系抽取。
进一步地,预理解单元1202还用于:根据预设的支持向量机和预设的卷积网络模型对所述商品提问数据进行分类和意图匹配,得到所述有效信息。
商品数据对比装置还可以在用户进行提问时,进行多轮对话处理;所述多轮对话处理包括:在所述用户进行槽位识别后,根据多轮场景树对所述用户进行对话引导,以得到所述商品提问数据。
商品数据对比装置还可以对所述商品提问数据进行语义消歧。
此外,商品数据对比装置还包括推荐单元,用于根据所述对比结果对所述用户进行新商品推荐。
本公开提供的商品数据对比装置,对商品提问数据进行语义预理解和命名实体识别后,通过在预建的知识库和知识图谱中进行查询,得到商品提问数据的实体间的抽象关系,进而得到对比商品数据对比结果,相比较现有技术中人工进行查询处理,可以提高商品对比的便捷性。
图13示例了一种电子设备的实体结构示意图,如图13所示,该电子设备可以包括:处理器(processor)1310、通信接口(Communications Interface)1320、存储器(memory)1330和通信总线1340,其中,处理器1310,通信接口1320,存储器1330通过通信总线1340完成相互间的通信。处理器1310可以调用存储器1330中的逻辑指令,以执行商品数据对比方法,该方法包括:对用户针对待对比商品进行提问得到的商品提问数据进行语义预理解,得到语义数据;对所述语义数据进行命名实体识别,得到提问实体;根据所述提问实体在预建的知识库中进行查询,得到与所述提问实体相似的在库实体,其中,所述预建的知识库包括预建的知识图谱的实体;根据所述在库实体在所述预建的知识图谱中进行查询,得到所述在库实体间的抽象关系;根据所述抽象关系进行知识推理,得到所述待对比商品数据对比结果。
此外,上述的存储器1330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的商品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件商品的形式体现出来,该计算机软件商品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本公开还提供一种计算机程序商品,所述计算机程序商品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的商品数据对比方法,该方法包括:对用户针对待对比商品进行提问得到的商品提问数据进行语义预理解,得到语义数据;对所述语义数据进行命名实体识别,得到提问实体;根据所述提问实体在预建的知识库中进行查询,得到与所述提问实体相似的在库实体,其中,所述预建的知识库包括预建的知识图谱的实体;根据所述在库实体在所述预建的知识图谱中进行查询,得到所述在库实体间的抽象关系;根据所述抽象关系进行知识推理,得到所述待对比商品数据对比结果。
又一方面,本公开还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的商品数据对比方法,该方法包括:对用户针对待对比商品进行提问得到的商品提问数据进行语义预理解,得到语义数据;对所述语义数据进行命名实体识别,得到提问实体;根据所述提问实体在预建的知识库中进行查询,得到与所述提问实体相似的在库实体,其中,所述预建的知识库包括预建的知识图谱的实体;根据所述在库实体在所述预建的知识图谱中进行查询,得到所述在库实体间的抽象关系;根据所述抽象关系进行知识推理,得到所述待对比商品数据对比结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件商品的形式体现出来,该计算机软件商品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。

Claims (15)

1.一种商品数据对比方法,其特征在于,所述方法包括:
对用户针对待对比商品进行提问得到的商品提问数据进行语义预理解,得到语义数据;
对所述语义数据进行命名实体识别,得到提问实体;
根据所述提问实体在预建的知识库中进行查询,得到与所述提问实体相似的在库实体,其中,所述预建的知识库包括预建的知识图谱的实体;
根据所述在库实体在所述预建的知识图谱中进行查询,得到所述在库实体间的抽象关系;
根据所述抽象关系进行知识推理,得到所述待对比商品数据对比结果。
2.根据权利要求1所述的方法,其特征在于,所述知识图谱的建立过程包括:
对商品的商品特征数据进行自然语言理解,得到所述商品的商品实体,其中,所述商品特征数据为文本数据;
根据所述商品实体对所述商品特征数据进行关系抽取,得到所述商品的商品关系;
根据所述商品实体和所述商品关系进行语义关系分析,以建立所述知识图谱。
3.根据权利要求2所述的方法,其特征在于,所述对商品的商品特征数据进行自然语言理解,包括:对所述商品特征数据进行规范化处理,所述规范化处理至少包括以下一种步骤:
繁体字至简体字转换、汉字至阿拉伯数字转换以及错别字纠正。
4.根据权利要求1所述的方法,其特征在于,对用户针对待对比商品进行提问得到的商品提问数据进行语义预理解,包括:对所述商品提问数据进行上下文补全。
5.根据权利要求4所述的方法,其特征在于,所述对所述商品提问数据进行上下文补全,包括:
获取所述商品提问数据的有效信息,所述有效信息包括所述商品提问数据的业务场景分类数据、领域分类数据和提问意图数据;
利用依存句法解析获取所述商品提问数据的缺失成分;
根据所述有效信息和所述缺失成分对所述商品提问数据进行上下文补全。
6.根据权利要求1所述的方法,其特征在于,所述对所述语义数据进行命名实体识别,得到提问实体,包括:
采用规则字典和深度神经网络模型对所述语义数据进行命名实体识别。
7.根据权利要求2所述的方法,其特征在于,根据所述商品实体对所述商品特征数据进行关系抽取,包括:依次采用预设的Transformer的双向编码器表示BERT模型和预设的中文预训练模型对所述商品特征数据进行关系抽取。
8.根据权利要求5所述的方法,其特征在于,所述获取所述商品提问数据的有效信息,包括:
根据预设的支持向量机和预设的卷积网络模型对所述商品提问数据进行分类和意图匹配,得到所述有效信息。
9.根据权利要求1所述的方法,其特征在于,所述对用户针对待对比商品进行提问得到的商品提问数据进行语义预理解之前,所述方法还包括:
在用户进行提问时,进行多轮对话处理;
所述多轮对话处理包括:
在所述用户进行槽位识别后,根据多轮场景树对所述用户进行对话引导,以得到所述商品提问数据。
10.根据权利要求1所述的方法,其特征在于,所述对用户针对待对比商品进行提问得到的商品提问数据进行语义预理解之前,所述方法还包括:对所述商品提问数据进行语义消歧。
11.根据权利要求1所述的方法,其特征在于,所述根据所述抽象关系进行知识推理,得到所述待对比商品数据对比结果之后,所述方法还包括:
根据所述对比结果对所述用户进行新商品推荐。
12.一种商品数据对比装置,其特征在于,所述装置包括:
预理解单元,用于对用户针对待对比商品进行提问得到的商品提问数据进行语义预理解,得到语义数据;
实体识别单元,用于对所述语义数据进行命名实体识别,得到提问实体;
第一查询单元,用于根据所述提问实体在预建的知识库中进行查询,得到与所述提问实体相似的在库实体,其中,所述预建的知识库包括预建的知识图谱的实体;
第二查询单元,用于根据所述在库实体在所述预建的知识图谱中进行查询,得到所述在库实体间的抽象关系;
推理单元,用于根据所述抽象关系进行知识推理,得到所述待对比商品数据对比结果。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
语言理解单元,用于对商品的商品特征数据进行自然语言理解,得到所述商品的商品实体,其中,所述商品特征数据为文本数据;
关系抽取单元,用于根据所述商品实体对所述商品特征数据进行关系抽取,得到所述商品的商品关系;
关系分析单元,用于根据所述商品实体和所述商品关系进行语义关系分析,以建立所述知识图谱。
14.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至11任一项所述的方法的步骤。
15.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至11任一项所述的方法的步骤。
CN202111110903.1A 2021-09-18 2021-09-18 商品数据对比方法、装置、电子设备和存储介质 Pending CN113763135A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111110903.1A CN113763135A (zh) 2021-09-18 2021-09-18 商品数据对比方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111110903.1A CN113763135A (zh) 2021-09-18 2021-09-18 商品数据对比方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113763135A true CN113763135A (zh) 2021-12-07

Family

ID=78796903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111110903.1A Pending CN113763135A (zh) 2021-09-18 2021-09-18 商品数据对比方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113763135A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678281A (zh) * 2013-12-31 2014-03-26 北京百度网讯科技有限公司 对文本进行自动标注的方法和装置
CN105574089A (zh) * 2015-12-10 2016-05-11 百度在线网络技术(北京)有限公司 知识图谱的生成方法及装置、对象对比方法及装置
CN109657238A (zh) * 2018-12-10 2019-04-19 宁波深擎信息科技有限公司 基于知识图谱的上下文识别补全方法、系统、终端及介质
CN110781251A (zh) * 2019-11-04 2020-02-11 泰康保险集团股份有限公司 保险知识图谱生成方法、装置、设备及存储介质
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678281A (zh) * 2013-12-31 2014-03-26 北京百度网讯科技有限公司 对文本进行自动标注的方法和装置
CN105574089A (zh) * 2015-12-10 2016-05-11 百度在线网络技术(北京)有限公司 知识图谱的生成方法及装置、对象对比方法及装置
CN109657238A (zh) * 2018-12-10 2019-04-19 宁波深擎信息科技有限公司 基于知识图谱的上下文识别补全方法、系统、终端及介质
CN110781251A (zh) * 2019-11-04 2020-02-11 泰康保险集团股份有限公司 保险知识图谱生成方法、装置、设备及存储介质
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备

Similar Documents

Publication Publication Date Title
CN109635117B (zh) 一种基于知识图谱识别用户意图方法及装置
CN112069298B (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN108304468B (zh) 一种文本分类方法以及文本分类装置
CN110765244A (zh) 获取应答话术的方法、装置、计算机设备及存储介质
CN113094578B (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
CN111274371B (zh) 一种基于知识图谱的智能人机对话方法及设备
CN111241828A (zh) 情感智能识别方法、装置及计算机可读存储介质
CN113282729B (zh) 基于知识图谱的问答方法及装置
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN112380866A (zh) 一种文本话题标签生成方法、终端设备及存储介质
CN115827819A (zh) 一种智能问答处理方法、装置、电子设备及存储介质
CN114255096A (zh) 数据需求匹配方法和装置、电子设备、存储介质
CN113722492A (zh) 一种意图识别方法及装置
CN113761377A (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
Al-Azani et al. Early and late fusion of emojis and text to enhance opinion mining
CN109710756B (zh) 基于语义角色标注的文书体裁分类系统及方法
CN113763135A (zh) 商品数据对比方法、装置、电子设备和存储介质
CN111191455A (zh) 一种交通事故损害赔偿中法律条文预测方法
CN115292495A (zh) 情绪分析方法、装置、电子设备及存储介质
Prakash et al. Lexicon Based Sentiment Analysis (LBSA) to Improve the Accuracy of Acronyms, Emoticons, and Contextual Words
CN115618968B (zh) 新意图发现方法、装置、电子设备及存储介质
Zhang et al. Number entities recognition in multiple rounds of dialogue systems
Tun et al. Intent Classification on Myanmar Social Media Data in Telecommunication Domain Using Convolutional Neural Network and Word2Vec

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination