CN114416940A - 表格问答中的短语泛化方法、装置、电子设备及存储介质 - Google Patents

表格问答中的短语泛化方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114416940A
CN114416940A CN202111624826.1A CN202111624826A CN114416940A CN 114416940 A CN114416940 A CN 114416940A CN 202111624826 A CN202111624826 A CN 202111624826A CN 114416940 A CN114416940 A CN 114416940A
Authority
CN
China
Prior art keywords
candidate
user
generalization
core word
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111624826.1A
Other languages
English (en)
Other versions
CN114416940B (zh
Inventor
陈炳金
涂佳阳
何东峰
林英展
黄世维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111624826.1A priority Critical patent/CN114416940B/zh
Publication of CN114416940A publication Critical patent/CN114416940A/zh
Application granted granted Critical
Publication of CN114416940B publication Critical patent/CN114416940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种表格问答中的短语泛化方法、装置、电子设备及存储介质,涉及自然语言处理、智能搜索、深度学习等领域。具体实现方案为:获取用户问题,并将用户问题转换为向量表示;基于向量表示,从向量空间中召回候选泛化数据集;其中,向量空间中包括用户词表中表格数据对应的用户词表向量;对用户问题分词得到词组集合,并从词组集合中提取核心词集合;其中,核心词集合中至少包括一个核心词;精排核心词集合与候选泛化数据集,得到核心词集合的泛化结果。将用户词表、用户问题映射到同一个向量空间,进而可计算向量相似度作为语义相似度,最终得到用户问题中不同片段的泛化结果,提高了短语泛化精度。

Description

表格问答中的短语泛化方法、装置、电子设备及存储介质
技术领域
本申请公开了一种表格问答中的短语泛化方法、装置、电子设备及存储介质,涉及人工智能领域,具体涉及自然语言处理、智能搜索、深度学习等领域。
背景技术
表格问答是一种基于现有结构化表格知识,进行提问,得到精确答案的技术。表格问答存在的问题是,用户提供了其表格以后,对内容进行提问的过程中,由于用户问题无法直接命中表格内容,导致无法给出正确结果。
解决该技术问题最接近的技术,有别名资源挖掘和字面模糊匹配两种技术。其中,别名资源挖掘:通过对用户上传表格中的内容进行别名的挖掘,通过人工标注,或者通过对片段的候选挖掘,得到别名资源进行泛化匹配。字面模糊匹配:一般通过前缀匹配、后缀匹配,以及部分匹配的方式,通过对比用户问题中的字与表格中的内容,能够部分命中用户问题中字的内容,都作为潜在的候选召回,实现泛化。
发明内容
本申请提供了一种用于表格问答中的短语泛化的方法、装置、设备以及存储介质,以提高表格问答中的短语泛化精度。
根据本申请的第一方面,提供了一种表格问答中的短语泛化方法,包括:
获取用户问题,并将所述用户问题转换为向量表示;
基于所述向量表示,从向量空间中召回候选泛化数据集;其中,所述向量空间中包括用户词表中表格数据对应的用户词表向量;
对所述用户问题分词得到词组集合,并从所述词组集合中提取核心词集合;其中,所述核心词集合中至少包括一个核心词;
精排所述核心词集合与所述候选泛化数据集,得到所述核心词集合的泛化结果。
根据本申请的第二方面,提供了一种表格问答中的短语泛化装置,包括:
向量转化模块,用于获取用户问题,并将所述用户问题转换为向量表示;
候选集获取模块,用于基于所述向量表示,从向量空间中召回候选泛化数据集;其中,所述向量空间中包括用户词表中表格数据对应的用户词表向量;
核心词获取模块,用于对所述用户问题分词得到词组集合,并从所述词组集合中提取核心词集合;其中,所述核心词集合中至少包括一个核心词;
精排模块,用于精排所述核心词集合与所述候选泛化数据集,得到所述核心词集合的泛化结果。
根据本申请的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。
根据本申请的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行第一方面所述的方法。
根据本申请的第五方面,提供了一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现第一方面所述方法的步骤。
根据本申请的技术解决了已有字面模糊匹配的技术问题,提高了短语泛化精度。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是表格问答的示意图;
图2是根据本申请第一实施例的表格问答中的短语泛化方法的示意图;
图3是根据本申请第二实施例的表格问答中的短语泛化方法的示意图;
图4是根据本申请第二实施例的表格问答中的短语泛化方法的原理图;
图5是根据本申请第三实施例的表格问答中的短语泛化装置的框图;
图6是用来实现本申请实施例的表格问答中的短语泛化方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
ANN(Approximate Nearest Neighbor),向量近似最近邻算法。
ERNIE(Enhanced Representation from kNowledgeIntEgration),知识增强语义表示模型。
表格问答(TableQA)是一种基于现有结构化表格知识(Table),进行提问,得到精确答案的技术。如图1所示,某一表格数据包括车型、品牌和价格等,用户提问为“X系车有哪些”,系统反馈“XX1”。
相关技术中,用户提供了其表格(Table)以后,对内容进行提问的过程中,由于用户query无法直接命中Table内容,导致无法给出正确结果的问题。
举两个示例:
示例1,用户上传的汽车表格知识中,“车型”有中文描述的“XXX”,而用户query表述为英文描述的“AAA的价格”,此时字面精确匹配无法完成“AAA”和“XXX”的匹配,需要一定的先验知识;否则定位不到表格中的内容,最终不能获取准确的答案。
示例2,用户上传的银行表格知识中,有“中国XX银行”,而用户query表述为:“查一下X行的股价”,此时,字面精准匹配无法完成“X行”与“中国XX银行”的匹配,需要通过一定的语义理解泛化(如:增加同义词表“X行”-“中国XX银行”),使得两者匹配上。
针对上述问题,相关技术中有有别名资源挖掘和字面模糊匹配两种技术来解决上述问题。
经过分析,发现别名资源挖掘的缺点如下:
a.人工富集/标注成本高,用户需要针对表格(Table)中缺失的别名进行富集,这增加了普通用户的使用成本;由于用户上传内容为开放领域所有场景,对于系统来说,进行人工标注的成本极高。
b.平行语料挖掘的效果差,由于用户上传语料为开放域所有可能场景,故当挖掘语料的场景与Table并不匹配时,无法挖到对应别名,或者别名质量差,召回错误的别名。
经过分析,发现字面模糊匹配的缺点如下:
仅仅考虑query字面包含的字,容易造成召回错误别名或者过多别名(如:“X行”,还能召回“X村”),此方法无法解决语义上的同义词匹配,例如“多少钱”->“价格”。
经过分析,要解决上述技术问题,在技术上表现为:用户query中的关键词,与用户上传Table中的关键词,在无法通过字面精准匹配的时候,需要通过对query的理解进行泛化,让同样含义的关键词,在不同的表述方式下,可以被匹配上。
为解决上述技术问题,本申请提出了一种表格问答中的短语泛化方法、装置、电子设备和计算机可读存储介质,是一个通用的语义泛化解决方案,基于语义索引的泛化方案,以解决已有字面模糊匹配的相关问题,提高短语泛化精度。
下面参照附图来描述根据本申请实施例提出的表格问答中的短语泛化方法、装置、电子设备和计算机可读存储介质。
图2是根据本申请一个实施例的表格问答中的短语泛化方法的流程图。需要说明的是,本申请实施例的表格问答中的短语泛化方法可应用于本申请实施例的表格问答中的短语泛化装置。该表格问答中的短语泛化装置可被配置于电子设备上。如图2所示,该表格问答中的短语泛化方法可以包括如下步骤。
S201,获取用户问题,并将用户问题转换为向量表示。
可以理解,由于本申请实施例的短语泛化方法是将用户词表、用户问题映射到同一个向量空间,进而可计算向量相似度作为语义相似度。因此,需要将用户问题转化为向量表示。也就是说,将自然语言转化为向量,在向量空间去进行相应的计算。将用户问题转换为向量表示可以通过处理自然语言的神经网络模型实现。
S202基于向量表示,从向量空间中召回候选泛化数据集;其中,向量空间中包括用户词表中表格数据对应的用户词表向量。
可以理解为,在问答之前,将用户端提供的用户词表中的表格数据全部转化为向量空间中的语义向量,该处理过程属于语义建库过程。只有完成语义建库以后,才能进行在线问答处理。
从由全部表格数据转换得到的向量空间中,召回与用户问题的向量表示满足一定预设相似度范围的候选泛化数据集,实现粗排召回。
可以理解,召回主要是从向量库中返回一定数量的候选答案,一般也是采用相似度打分的形式,或者相似度高的候选答案进行召回。但是召回所涉及的打分方法是相对简单跟粗糙的,一般只要正确答案能位于topK候选项中即可。
S203对用户问题分词得到词组集合,并从词组集合中提取核心词集合;其中,核心词集合中至少包括一个核心词。
可以理解为,用户问题一般为句子,句子中可能包括多个词语,不同的词语可能对应不同的含义,不能直接获取句子的泛化。需要先对句子进行分词,得到多个词组。由于用户问题中可能包括没有意义的词语,或者是不重要的词语或词组,例如“查一下”、“什么”、“能否”等,获取这类词组的泛化结果是没有意义的,造成资源浪费。因此,在分词之后,需要筛选出核心词,从而获取每个核心词的泛化结果。
需要说明的是,词组也称为短语。
S204精排核心词集合与候选泛化数据集,得到核心词集合的泛化结果。
可以理解,在得到用户问题的多个候选泛化数据和从用户问题中筛选出多个核心词的基础上,精排多个核心词与多个候选泛化数据,从而得到每个核心词的泛化结果。
精排就是精确排序,就是将问答系统召回模块返回的若干答案候选项打上具体精确的分数从而进行排序,一般分数取值在[0,1]之间,分数越高代表该候选答案跟用户问题query的匹配程度越高。精排模型的目标就是希望能给最合适的候选答案搭上越高的分值,越匹配的候选答案打上越高的分数。如果候选答案都不匹配query就都打上较低的分值,让后续的模块去调用相应的兜底策略。
需要说明的是,召回跟精排的打分是不同的,也是不冲突的,精排要求将若干候选项按相似度精确排序,要求正确答案要排到非常前面的位置。很多情况如果top1不是正确答案就意味着没法正确回答用户的问题,因为不同于推荐系统可以展示多个候选商品,问答系统只能回复一种答案。所以它的模型会相对更加复杂和精致,计算更加耗时。
对用户问题中的核心词与粗召回的候选泛化数据集进行精排,精排可采用ERNIE-sim模型,得到最终的泛化结果。
本申请实施例的表格问答中的短语泛化方法,先将用户问题转化为向量表示,在所有表格数据对应的用户词表向量集合中,获取候选泛化集。同时对用户问题分词并筛选出核心词,再计算每个核心词与候选泛化集中每个候选泛化结果的相似度,取最大者作为该核心词的泛化结果。将用户词表、用户问题映射到同一个向量空间,进而可计算向量相似度作为语义相似度,最终得到用户问题中不同片段的泛化结果。
图3是根据本申请另一个实施例的表格问答中的短语泛化方法的流程图。如图3所示,该表格问答中的短语泛化方法可以包括如下步骤。
S301,获取用户问题,并将用户问题转换为向量表示。
可选的,响应于收到包含用户问题的问答请求,将所述用户问题输入预训练语义模型,获取将所述用户问题转换为向量表示。
将用户问题转换为向量表示的实现过程为:将自然语言转化为向量表示的第一步是分词,将用户问题分成一个个有意义的“词语”。第二步是将分词转词表ID,即完成词表id映射,构造预训练语义模型的输入。第三步是获得词向量或词嵌入。本申请实施例调用ERNIE Tokenizer进行分词,完成词表id映射,构造ERNIE模型的输入,并采用ERNIE模型获取用户问题的向量表示。其中,Tokenizer为ERNIE模型的分词器。
因为预训练语义模型是经过大规模自然语言语料训练得到的,对于将用户问题转化为向量表示效果较好。
可以理解的,也可以采用其他同功能的预训练模型。
S302,基于向量表示,从向量空间中召回候选泛化数据集;其中,向量空间中包括用户词表中表格数据对应的用户词表向量。
需要说明的是,在进行语义查询之前,要先进行语义建库,如图4所示,本申请实施例的离线语义建库的实现方式为:将用户端的表格数据(属性、属性值)先通过预训练语义模型,得到用户词表向量(例如“帕萨特”、“哈弗h6”分别映射成128维的浮点数向量)。
本申请实施例采用的预训练语义模型为ERNIE模型,通过ERNIE模型得到用户词表中表格数据的语义向量。可以理解的,其也可以选择其他类型的预训练模型,对于预训练模型的选择在此不做限制。
然后对获取的所有用户词表向量,建立语义索引。本申请实施例使用FAISS(Facebook AI Similarity Search))建立语义索引。其中,FAISS为Facebook开源的一个ANN向量相似度检索框架。FAISS的核心就是索引概念,它封装了一组向量,并且可以选择是否进行预处理,帮忙高效的检索向量。
可选的,基于向量表示,从向量空间对应的语义索引中获取相似度满足预设范围的多个用户词表向量;获取多个用户词表向量对应的多个表格数据,并将多个表格数据作为候选泛化数据集。
在线问答过程中,根据用户问题的向量表示,通过FAISS检索与该用户问题的向量表示相似度最高的N个词表元素(词或短语)作为粗召回候选泛化数据集,完成语义索引粗排过程。
需要说的是,粗排是相对于精排而言的,因为召回所涉及的打分方法是相对简单跟粗糙的,一般只要正确答案能位于top K候选项中即可,因此可以理解为粗略排序。
示例1,用户问题query=“查一下X行的股价”,经过粗召回过程,可以召回“中国XX银行”、“股价”。
示例2,用户问题query=“XX机场能否托运我的猫”,(补充说明:该场景是机场表格数据,用户想咨询的问题是能否托运小动物,标准问法是“上海XX机场可不可以小动物托运”)。经过粗召回过程,可以召回“上海XX机场”、“小动物托运”。
因为表格数据一般的数据量不会非常大,通过索引检索比直接检索的速度要快很多。因此,在线问答时,根据语义索引进行搜索,能有效提升搜索效率。
S303,对用户问题分词得到词组集合,并从词组集合中提取核心词集合;其中,核心词集合中至少包括一个核心词。
在获取用户问题的向量表示的同时,还需要对用户问题进行分词处理,再根据一些词重要性算法,得到用户问题中的核心词。
可以理解,中文分词是将连续的自然语言文本,切分出具有语义合理性和完整性的词汇序列的过程。词(即词组)是承担语义的最基本单位,切词是自然语言处理任务的基础。可选的,采用中文词法分析LAC(Lexical Analysis of Chinese)算法实现分词。可以理解的,其也可以是其他类型的分词算法,不做限制。
需要说明的是,本申请实施例的词重要性算法是指对用户问题分词后的每个词组进行打分,并给出归一化分数,所有词组的重要性之和为1。将词组的重要性分为4档,重要性从低到高分别为0,1,2,3。本方案采用的是wordweight算法,该算法模型是一个双向的GRU(Gated Recurrent Unit,门控循环单元结构),输入是用户问题,输出是词组、实体粒度的重要度。wordweight算法模型如下:
作为一个示例:用户问题query=“北京今天天气怎么样”,输出结果如下:北京,level=2;今天,level=3;天气,level=3;怎么,level=1;样,level=0。分别表示重要程度:“北京”重要,“今天”、“天气”非常重要,“怎么”一般,“样”不重要。本申请实施例是将“重要”、“非常重要”级别的词组作为核心词。
对于示例1,用户问题query=“查一下X行的股价”,经过分词、词重要性分析,可以得到的核心词包括“X行”、“股价”。
对于示例2,用户问题query=“XX机场能否托运我的猫”,经过分词、词重要性分析,可以得到的核心词包括“XX机场”、“托运”、“猫”。
还需要说明的是,获取用户问题之后,可以先将用户问题转换为向量表示,与可以先将用户问题分词得到词组集合,并从词组集合中提取核心词集合;或者是同时进行。也就是说,获取用户问题之后,步骤S301的获取用户问题的向量表示与步骤S302可以不分先后,不做限制。
S304,获取核心词集合之中的当前核心词,并获取当前核心词与候选泛化数据集中多个候选泛化数据之间的多个相似度得分。
可以理解为,精排过程即精确排序过程,通过计算核心词与候选答案中每个候选答案的相似度得分,得到每个核心词对应的精确的候选答案排序。只有得到精确的排序,才能选择相似度最高的候选答案作为该核心词的匹配结果。
可选的,将所述当前核心词与所述候选泛化数据集中之中每个候选泛化数据分别输入预训练语义模型,获取所述当前核心词与所述候选泛化数据集中多个候选泛化数据之间的多个相似度得分。
可选的,通过训练好的的ERNIE-sim模型获取每个核心词与候选泛化数据集中多个候选泛化数据之间的相似度得分。该模型的输入是两个词组,输出是两个词组的相似度,该模型的本质是一个双塔模型,底层使用ERNIE,得到两个词组的向量表示,然后计算余弦相似度。训练好的ERNIE-SIM模型,是通过大规模的短语语料(同义词、相关词)训练所得,该模型对短语的匹配效果比较好。
对于示例1,使用ERNIE-SIM模型,对核心词与候选泛化集进行相似度打分,得到sim(“X行”,“中国XX银行”)=0.96,sim(“X行”,“价格”)=0.01,sim(“股价”,“股价”)=1.0,sim(“股价”,“中国XX银行”)=0.009。
对于示例2,使用ERNIE-SIM模型计算相似度得分sim(“XX机场”,“上海XX机场”)=0.99,sim(“托运猫”,“小动物托运”)=0.958。
需要说明的是,根据计算相似度过程中候选答案跟query之间是否进行过特征交互可以分为双塔模型跟cross模型。特征交互可以理解为在这个计算过程中,候选答案是否能看到query,是否用到query的信息,相对的,query是否能看到候选答案并用到候选答案的信息。可以理解为,精排过程还可以采用其他结构的预训练模型实现,其中,除了余弦相似度,还可以选择其他的文本相似度计算方法,在此不做限制。
S305,确定多个相似度得分中最高的相似度得分所对应的目标候选泛化数据,并将目标候选泛化数据作为当前核心词的泛化结果。
可以理解为,问答系统只能回复一个答案,所以,根据精排得到的相似度得分,只能选择最高的相似度得到多对应的候选答复。
对于示例1,与核心词“X行”相似度得分最高的是“中国XX银行”;与核心词“股价”相似度得分最高的是“股价”。
对于示例2,与核心词“XX机场”相似度得分最高的是“上海XX机场”;与核心词“托运猫”相似度得分最高的是“小动物托运”。
对于示例1,最终得到的泛化结果是“中国XX银行”、“股价”,在基于该泛化结果进行表格召回。
对于示例2,最终得到的泛化结果是“上海XX机场”、“小动物托运”,在基于该泛化结果进行表格召回。
本申请实施例的表格问答中的短语泛化方法,先将用户问题转化为向量表示,在所有表格数据对应的用户词表向量集合中,获取候选泛化集。同时对用户问题分词并筛选出核心词,再计算每个核心词与候选泛化集中每个候选泛化结果的相似度,取最大者作为该核心词的泛化结果。将用户词表、用户问题映射到同一个向量空间,进而可计算向量相似度作为语义相似度,最终得到用户问题中不同片段的泛化结果。只需要基于表格内容建立语义索引,降低人工富集/标注数据的成本。充分利用大规模预训练模型的表达能力,不依赖特定领域别名语料。有效支持语义层面的泛化,能够解决非字面匹配的短语泛化。
作为对上述各图所示方法的实现,本申请提供一种实施表格问答中的短语泛化方法的虚拟装置的一个实施例,进一步参见图5,示出了本申请实施例提供的表格问答中的短语泛化装置的结构示意图。如图5所示,该表格问答中的短语泛化装置可以包括向量转化模块501、候选集获取模块502、核心词获取模块503和精排模块504。
具体地,向量转化模块501,用于获取用户问题,并将用户问题转换为向量表示;
候选集获取模块502,用于基于向量表示,从向量空间中召回候选泛化数据集;其中,向量空间中包括用户词表中表格数据对应的用户词表向量;
核心词获取模块503,用于对用户问题分词得到词组集合,并从词组集合中提取核心词集合;其中,核心词集合中至少包括一个核心词;
精排模块504,用于精排核心词集合与候选泛化数据集,得到核心词集合的泛化结果。
在本申请的一些实施例中,候选集获取模块502,具体用于:
基于向量表示,从向量空间对应的语义索引中获取相似度满足预设范围的多个用户词表向量;
获取多个用户词表向量对应的多个表格数据,并将多个表格数据作为候选泛化数据集。
在本申请的一些实施例中,精排模块504,具体用于:
获取核心词集合之中的当前核心词,并获取当前核心词与候选泛化数据集中多个候选泛化数据之间的多个相似度得分;
确定多个相似度得分中最高的相似度得分所对应的目标候选泛化数据;并将目标候选泛化数据作为当前核心词的泛化结果。
在本申请的一些实施例中,精排模块504在获取当前核心词与候选泛化数据集中多个候选泛化数据之间的多个相似度得分时,用于:
将当前核心词与候选泛化数据集中之中每个候选泛化数据分别输入预训练语义模型,获取当前核心词与候选泛化数据集中多个候选泛化数据之间的多个相似度得分。
在本申请的一些实施例中,向量转化模块501,具体用于:
响应于收到包含用户问题的问答请求,将用户问题输入预训练语义模型,获取将用户问题转换为向量表示。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请实施例的表格问答中的短语泛化装置,先将用户问题转化为向量表示,在所有表格数据对应的用户词表向量集合中,获取候选泛化集。同时对用户问题分词并筛选出核心词,再计算每个核心词与候选泛化集中每个候选泛化结果的相似度,取最大者作为该核心词的泛化结果。将用户词表、用户问题映射到同一个向量空间,进而可计算向量相似度作为语义相似度,最终得到用户问题中不同片段的泛化结果。只需要基于表格内容建立语义索引,降低人工富集/标注数据的成本。充分利用大规模预训练模型的表达能力,不依赖特定领域别名语料。有效支持语义层面的泛化,能够解决非字面匹配的短语泛化。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的用于实现表格问答中的短语泛化的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的表格问答中的短语泛化的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的表格问答中的短语泛化的方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的表格问答中的短语泛化的方法对应的程序指令/模块(例如,附图5所示的向量转化模块501、候选集获取模块502、核心词获取模块503和精排模块504)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的表格问答中的短语泛化的方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据表格问答中的短语泛化的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至表格问答中的短语泛化的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
表格问答中的短语泛化的方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与表格问答中的短语泛化的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (13)

1.一种表格问答中的短语泛化方法,包括:
获取用户问题,并将所述用户问题转换为向量表示;
基于所述向量表示,从向量空间中召回候选泛化数据集;其中,所述向量空间中包括用户词表中表格数据对应的用户词表向量;
对所述用户问题分词得到词组集合,并从所述词组集合中提取核心词集合;其中,所述核心词集合中至少包括一个核心词;
精排所述核心词集合与所述候选泛化数据集,得到所述核心词集合的泛化结果。
2.根据权利要求1所述的方法,其中,所述基于所述向量表示,从向量空间中召回候选泛化数据集,包括:
基于所述向量表示,从所述向量空间对应的语义索引中获取相似度满足预设范围的多个用户词表向量;
获取所述多个用户词表向量对应的多个表格数据,并将所述多个表格数据作为候选泛化数据集。
3.根据权利要求1所述的方法,其中,所述精排所述核心词集合与所述候选泛化数据集,得到所述核心词集合的泛化结果,包括:
获取所述核心词集合之中的当前核心词,并获取所述当前核心词与所述候选泛化数据集中多个候选泛化数据之间的多个相似度得分;
确定所述多个相似度得分中最高的相似度得分所对应的目标候选泛化数据;并将所述目标候选泛化数据作为所述当前核心词的泛化结果。
4.根据权利要求3所述的方法,其中,所述获取所述当前核心词与所述候选泛化数据集中多个候选泛化数据之间的多个相似度得分,包括:
将所述当前核心词与所述候选泛化数据集中之中每个候选泛化数据分别输入预训练语义模型,获取所述当前核心词与所述候选泛化数据集中多个候选泛化数据之间的多个相似度得分。
5.根据权利要求1所述的方法,其中,所述获取用户问题,并将所述用户问题转换为向量表示,包括:
响应于收到包含用户问题的问答请求,将所述用户问题输入预训练语义模型,获取将所述用户问题转换为向量表示。
6.一种表格问答中的短语泛化装置,包括:
向量转化模块,用于获取用户问题,并将所述用户问题转换为向量表示;
候选集获取模块,用于基于所述向量表示,从向量空间中召回候选泛化数据集;其中,所述向量空间中包括用户词表中表格数据对应的用户词表向量;
核心词获取模块,用于对所述用户问题分词得到词组集合,并从所述词组集合中提取核心词集合;其中,所述核心词集合中至少包括一个核心词;
精排模块,用于精排所述核心词集合与所述候选泛化数据集,得到所述核心词集合的泛化结果。
7.根据权利要求6所述的装置,其中,所述候选集获取模块,具体用于:
基于所述向量表示,从所述向量空间对应的语义索引中获取相似度满足预设范围的多个用户词表向量;
获取所述多个用户词表向量对应的多个表格数据,并将所述多个表格数据作为候选泛化数据集。
8.根据权利要求6所述的装置,其中,所述精排模块,具体用于:
获取所述核心词集合之中的当前核心词,并获取所述当前核心词与所述候选泛化数据集中多个候选泛化数据之间的多个相似度得分;
确定所述多个相似度得分中最高的相似度得分所对应的目标候选泛化数据;并将所述目标候选泛化数据作为所述当前核心词的泛化结果。
9.根据权利要求8所述的装置,其中,所述精排模块在获取所述当前核心词与所述候选泛化数据集中多个候选泛化数据之间的多个相似度得分时,用于:
将所述当前核心词与所述候选泛化数据集中之中每个候选泛化数据分别输入预训练语义模型,获取所述当前核心词与所述候选泛化数据集中多个候选泛化数据之间的多个相似度得分。
10.根据权利要求6所述的装置,其中,所述向量转化模块,具体用于:
响应于收到包含用户问题的问答请求,将所述用户问题输入预训练语义模型,获取将所述用户问题转换为向量表示。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
CN202111624826.1A 2021-12-28 2021-12-28 表格问答中的短语泛化方法、装置、电子设备及存储介质 Active CN114416940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111624826.1A CN114416940B (zh) 2021-12-28 2021-12-28 表格问答中的短语泛化方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111624826.1A CN114416940B (zh) 2021-12-28 2021-12-28 表格问答中的短语泛化方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114416940A true CN114416940A (zh) 2022-04-29
CN114416940B CN114416940B (zh) 2023-04-18

Family

ID=81269314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111624826.1A Active CN114416940B (zh) 2021-12-28 2021-12-28 表格问答中的短语泛化方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114416940B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339383A (zh) * 2015-07-07 2017-01-18 阿里巴巴集团控股有限公司 一种搜索排序方法及系统
CN106445921A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用二次互信息的中文文本术语抽取方法
US20180052908A1 (en) * 2016-08-16 2018-02-22 Ebay Inc. Semantic reverse search indexing of publication corpus
CN109255126A (zh) * 2018-09-10 2019-01-22 百度在线网络技术(北京)有限公司 文章推荐方法及装置
CN110008474A (zh) * 2019-04-04 2019-07-12 科大讯飞股份有限公司 一种关键短语确定方法、装置、设备及存储介质
CN110442760A (zh) * 2019-07-24 2019-11-12 银江股份有限公司 一种问答检索系统的同义词挖掘方法及装置
CN111078842A (zh) * 2019-12-31 2020-04-28 北京每日优鲜电子商务有限公司 查询结果的确定方法、装置、服务器及存储介质
CN111078849A (zh) * 2019-12-02 2020-04-28 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN111126074A (zh) * 2019-12-24 2020-05-08 北京神舟航天软件技术有限公司 一种检索请求语义扩展方法
CN111737399A (zh) * 2020-05-28 2020-10-02 北京百度网讯科技有限公司 扩展问答集的方法、装置、电子设备和可读存储介质
CN112507198A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 用于处理查询文本的方法、装置、设备、介质和程序
CN112667794A (zh) * 2020-12-31 2021-04-16 民生科技有限责任公司 一种基于孪生网络bert模型的智能问答匹配方法及系统
WO2021189752A1 (zh) * 2020-03-23 2021-09-30 百度在线网络技术(北京)有限公司 搜索方法及装置
CN113704433A (zh) * 2021-08-31 2021-11-26 平安普惠企业管理有限公司 人机对话语音意图识别方法、装置、设备及存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339383A (zh) * 2015-07-07 2017-01-18 阿里巴巴集团控股有限公司 一种搜索排序方法及系统
US20180052908A1 (en) * 2016-08-16 2018-02-22 Ebay Inc. Semantic reverse search indexing of publication corpus
CN106445921A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用二次互信息的中文文本术语抽取方法
CN109255126A (zh) * 2018-09-10 2019-01-22 百度在线网络技术(北京)有限公司 文章推荐方法及装置
CN110008474A (zh) * 2019-04-04 2019-07-12 科大讯飞股份有限公司 一种关键短语确定方法、装置、设备及存储介质
CN110442760A (zh) * 2019-07-24 2019-11-12 银江股份有限公司 一种问答检索系统的同义词挖掘方法及装置
CN111078849A (zh) * 2019-12-02 2020-04-28 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN111126074A (zh) * 2019-12-24 2020-05-08 北京神舟航天软件技术有限公司 一种检索请求语义扩展方法
CN111078842A (zh) * 2019-12-31 2020-04-28 北京每日优鲜电子商务有限公司 查询结果的确定方法、装置、服务器及存储介质
WO2021189752A1 (zh) * 2020-03-23 2021-09-30 百度在线网络技术(北京)有限公司 搜索方法及装置
CN111737399A (zh) * 2020-05-28 2020-10-02 北京百度网讯科技有限公司 扩展问答集的方法、装置、电子设备和可读存储介质
CN112507198A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 用于处理查询文本的方法、装置、设备、介质和程序
CN112667794A (zh) * 2020-12-31 2021-04-16 民生科技有限责任公司 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN113704433A (zh) * 2021-08-31 2021-11-26 平安普惠企业管理有限公司 人机对话语音意图识别方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
K P SWAROOP; DURGA PRASAD GARAPATI; PRAVEEN KUMAR NALLI; SSSR SA: "Service Restoration in Distribution System Using Breadth-First Search Technique", 《IEEE》 *
刘高军: "基于深度语义信息的查询扩展", 《计算机应用》 *

Also Published As

Publication number Publication date
CN114416940B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111125335B (zh) 问答处理方法、装置、电子设备和存储介质
CN112560479B (zh) 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备
CN112507715A (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
CN112528001B (zh) 一种信息查询方法、装置及电子设备
CN111177355B (zh) 基于搜索数据的人机对话交互方法、装置和电子设备
US11907671B2 (en) Role labeling method, electronic device and storage medium
CN112487814A (zh) 实体分类模型训练方法、实体分类方法、装置及电子设备
US20220129448A1 (en) Intelligent dialogue method and apparatus, and storage medium
CN112100332A (zh) 词嵌入表示学习方法及装置、文本召回方法及装置
CN112507091A (zh) 检索信息的方法、装置、设备以及存储介质
CN112560505A (zh) 一种对话意图的识别方法、装置、电子设备及存储介质
CN111783861A (zh) 数据分类方法、模型训练方法、装置和电子设备
CN116737908A (zh) 知识问答方法、装置、设备和存储介质
JP2022031109A (ja) ニューラルネットワークに基づくマンマシンインタラクション方法、装置、及び媒体
JP2021190073A (ja) リソースソート方法、ソートモデルをトレーニングする方法及び対応する装置
CN111984774B (zh) 搜索方法、装置、设备以及存储介质
CN111858905A (zh) 模型训练方法、信息识别方法、装置、电子设备及存储介质
CN112541362A (zh) 一种泛化处理的方法、装置、设备和计算机存储介质
CN111966781A (zh) 数据查询的交互方法及装置、电子设备和存储介质
CN111708800A (zh) 查询方法、装置及电子设备
CN111385188A (zh) 对话元素的推荐方法、装置、电子设备和介质
KR20210042272A (ko) 지능형 응답 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램
CN112597288A (zh) 人机交互方法、装置、设备及存储介质
CN114860913B (zh) 智能问答系统构建方法、问答处理方法及装置
CN114416940B (zh) 表格问答中的短语泛化方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant