CN115563291A - 表单结构生成方法、装置和存储介质 - Google Patents
表单结构生成方法、装置和存储介质 Download PDFInfo
- Publication number
- CN115563291A CN115563291A CN202110750642.3A CN202110750642A CN115563291A CN 115563291 A CN115563291 A CN 115563291A CN 202110750642 A CN202110750642 A CN 202110750642A CN 115563291 A CN115563291 A CN 115563291A
- Authority
- CN
- China
- Prior art keywords
- cluster
- sentence
- sentences
- phrase
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000002910 structure generation Methods 0.000 title claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 61
- 238000000605 extraction Methods 0.000 claims abstract description 55
- 238000009826 distribution Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 12
- 238000009825 accumulation Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000005484 gravity Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- FAIXYKHYOGVFKA-UHFFFAOYSA-N Kinetin Natural products N=1C=NC=2N=CNC=2C=1N(C)C1=CC=CO1 FAIXYKHYOGVFKA-UHFFFAOYSA-N 0.000 description 1
- 241001347978 Major minor Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010225 co-occurrence analysis Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- QANMHLXAZMSUEX-UHFFFAOYSA-N kinetin Chemical compound N=1C=NC=2N=CNC=2C=1NCC1=CC=CO1 QANMHLXAZMSUEX-UHFFFAOYSA-N 0.000 description 1
- 229960001669 kinetin Drugs 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Animal Behavior & Ethology (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种表单结构生成方法、装置和存储介质。所述表单结构生成方法包括:对句子集合中的每个句子进行向量表示;对经向量表示的句子集合进行聚类处理,得到多簇句子;基于每簇句子进行句子簇要素抽取,生成所述句子集合的表单结构。本发明实施例的方案实现了与场景无关的信息抽取。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种表单结构生成方法、装置和存储介质。
背景技术
知识图谱(Knowledge Graph)是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
作为一种图形的数据组织形式,知识图谱能够将核心数据进行关联,从而提供更丰富的下游应用。
知识图谱的表单结构是一种对具体数据的抽象结构化,能够用于广泛的场景。现有技术中的信息抽取方法通常适用于特定场景,而不同的场景下的词汇会有很大差异,从而难以适用于知识图谱的表单结构的信息抽取。
发明内容
有鉴于此,本发明实施例提供一种表单结构生成方法、装置和存储介质,以解决或缓解上述问题。
根据本发明实施例的第一方面,提供了一种表单结构生成方法,包括:对句子集合中的每个句子进行向量表示;对经向量表示的句子集合进行聚类处理,得到多簇句子;基于每簇句子进行句子簇要素抽取,生成所述句子集合的表单结构。
根据本发明实施例的第二方面,提供了一种表单结构生成方法,包括:对问句集合中的每个问句进行向量表示;对经向量表示的问句集合进行聚类处理,得到多簇问句;基于每簇问句进行句子簇要素抽取,生成所述问句集合的知识图谱表单结构。
根据本发明实施例的第三方面,提供了一种表单结构生成装置,包括:向量表示模块,对句子集合中的每个句子进行向量表示;聚类处理模块,对经向量表示的句子集合进行聚类处理,得到多簇句子;要素抽取模块,基于每簇句子进行句子簇要素抽取,生成所述句子集合的表单结构。
根据本发明实施例的第四方面,提供了一种表单结构生成装置,包括:向量表示模块,对问句集合中的每个问句进行向量表示;聚类处理模块,对经向量表示的问句集合进行聚类处理,得到多簇问句;要素抽取模块,基于每簇问句进行句子簇要素抽取,生成所述问句集合的知识图谱表单结构。
根据本发明实施例的第五方面,提供了一种电子设备,所述设备包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面或第二方面所述的方法对应的操作。
根据本发明实施例的第六方面,提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第二方面所述的方法。
在本发明实施例的方案中,由于句子簇要素抽取得到的句子簇要素适用于经由聚类处理得到的多簇句子中的每个句子,因此实现了与场景无关的信息抽取。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1A为本发明的一个实施例的表单结构生成方法的示意性流程图;
图1B为本发明的另一实施例的主语要素抽取方法的示意性流程图;
图1C为本发明的另一实施例的谓语要素抽取方法的示意性流程图;
图2为本发明的另一实施例的表单结构生成方法的示意性流程图;
图3为本发明的另一实施例的表单结构生成装置的示意性框图;
图4为本发明的另一实施例的表单结构生成装置的示意性框图;以及
图5为本发明的另一实施例的电子设备的硬件结构。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
图1A为本发明的一个实施例的表单结构生成方法的示意性流程图。本实施例的方法可以适用于任意适当的具有数据处理能力的电子设备,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。图1A的表单结构生成方法包括:
110:对句子集合中的每个句子进行向量表示。
应理解,对句子进行向量表示,可以对句子中的每个字符(根据不同的语系而言,可以为字或词)(例如,中文的字或英语的词等)进行向量表示,然后再进行拼接处理,得到句子的向量表示。文中的句子可以为陈述句、疑问句等。
120:对经向量表示的句子集合进行聚类处理,得到多簇句子。
应理解,可以设定聚类的类别个数,也可以采用不定类别个数的聚类方法,例如,可以采用层次聚类(Hierachical Clustering)算法。在诸如问句的句子向量表示方面,可以采用词频逆文本频率指数(Term Frequency Inverse Document Frequency,TF-IDF)和主成分分析(Principal Component Analysis,PCA)的流程、或者预训练词表示的方法等。
还应理解,在进行聚类处理之前,可以对句子集合(例如,问句集合)进行去重。也可以不对句子集合进行去重,以便保持了服务场景句子信息(例如,问句信息)分布的完整性。此外,在完成聚类处理之后,可以设置预设簇内句子数目(例如,最小长度参数),以便过滤掉聚类簇中句子数目少于预设簇内句子数目的聚类簇,以便保证或提高抽取出的表单结构的代表性或者叫显著性。
130:基于每簇句子进行句子簇要素抽取,生成句子集合的表单结构。
应理解,文中的表单结构包括但不限于schema。在知识问答场景下,可以通过相似的句子群组(例如,相似的问句群组)构建诸如schema的抽象表单结构。表单结构可以包括诸如不同句子簇要素的不同维度。
句子簇要素可以为词语,词语包括词或短语。取决于不同的短语类型,短语中的多个词可以具有不同的词性,例如,可以为名词、副词、形容词、动词等。短语类型可以包括动宾短语、偏正短语、主谓短语等。句子簇要素可以包括主语要素、谓语要素、宾语要素、定语要素、状语要素、补语要素、条件要素等。
在本发明实施例的方案中,由于句子簇要素抽取得到的句子簇要素适用于经由聚类处理得到的多簇句子中的每个句子,因此实现了与场景无关的信息抽取。
此外,在本发明实施例的方案中,由于脱离了词语义信息进行信息抽取,因此达到了场景无关的效果。此外,在本发明实施例的方案中,由于基于句子簇进行信息抽取,而非对单句进行信息抽取,因此提升了信息抽取的全局性和鲁棒性。
此外,相比于特定领域信息抽取方案,本发明实施例的方案不涉及具体词汇的表示,而是完全基于依存句法分析以及场景词汇无关的关键词抽取等手段进行建模,因此实现了场景无关的效果。
此外,相比于开放域信息抽取或规则抽取方案,本发明实施例的方案不依赖具体触发词,不依赖词汇的语义信息,仅基于句法结构(句子簇要素提取)进行建模,避免了对触发词的依赖,换言之,本发明实施例的方案并不是基于具体的词汇或者词汇模式进行要素抽取。
在本发明的另一实现方式中,基于每簇句子进行句子簇要素抽取,包括:确定每簇句子中的多个词语在该簇句子中的多个全局词性;在多个词语中,确定全局词性符合该簇句子的句子簇要素的词性的一组词语;从一组词语中,抽取句子簇要素。
由于句子簇要素具有特定词性,因此在全局词性符合特定词性的一组词语中,抽取句子簇要素,提高了抽取句子簇要素的效率。
在本发明的另一实现方式中,从一组词语中,抽取句子簇要素,包括:确定一组词语中的多个词语的多个关键度;基于多个关键度的排序,从一组词语中,抽取句子簇要素。
由于多个关键度的排序反映了词语在句子簇中的关键程度,并且句子簇要素与句子簇中的词语的关键程度相关,因此基于多个关键度的排序,从一组词语中,抽取句子簇要素,提高了抽取句子簇要素的效率。
具体而言,作为一个示例中,文中的词/短语的各个关键度可以采用textrank算法(TextRank算法是一种用于文本的基于图的排序算法,通过把文本分割成若干组成单元(句子),构建节点连接图,用句子之间的相似度作为边的权重,通过循环迭代计算句子的TextRank值,最后抽取排名高的句子组合成文本摘要)和/或词频的方法来进行词/短语关键度计算。
作为另一示例,包括领域词汇的词/短语的关键度被设定为不包括领域词汇的关键度与放大因子(大于1的实数)的乘积。
作为另一示例,可以设定词/短语的长度,统计长度大于预设长度阈值或长度小于长度阈值的词/短语各自的关键度。对长度大于预设长度阈值的词/短语进行统计,能够分词处理带来的错误。
作为另一示例,可以采用关键度降序或升序得到诸如关键词列表的多个关键度的排序。
在本发明的另一实现方式中,确定每簇句子中的多个词语在该簇句子中的多个全局词性,包括:确定每簇句子中的每个词语在该簇句子中的多个句子的词性概率分布,以得到多个词语的多个词性概率分布;将每个词语的词性概率分布中的概率最大的词性确定为该词语在该簇句子中的全局词性,以得到多个全局词性。
由于词性概率分布能够反映出词语不同的词性在多个句子中的比重,因此将每个词语的词性概率分布中的概率最大的词性确定为该词语在该簇句子中的全局词性,以得到多个全局词性,保证了全局词性的准确度和可靠性。
具体而言,在依存句法分析的基础上,获取到每个词w在聚类簇中每个句子上的词性,从而得到w在整个问句簇中的词性分布,最终将词w的词性分布中概率最大的词性作为其在该簇中的全局词性。
在本发明的另一实现方式中,确定每簇句子中的多个词语在该簇句子中的多个全局词性,还包括:基于每簇句子中的短语中的关键词在每个句子的全局词性,确定该短语在该句子中的词性;根据该短语在多个句子中的词性,确定该短语的词性概率分布。
由于词是组成短语的单位,在每簇句子中具有更准确的统计意义,因此基于每簇句子中的短语中的关键词在每个句子的全局词性,确定该短语在该句子中的词性,提高了确定短语的词性的准确度。
具体而言,对于短语的词性,利用短语中词汇的词性来得到,具体规则可调整,比如采用若短语中所有词汇的全局词性均为名词,则将该短语的词性置为名词,若短语中含有全局词性为动词的词汇,则将短语的词性置为动词。
此外,以问句簇要素抽取为例,由于问句中的部分核心信息是以短语的形式存在,如在问句“异地购房如何提取住房公积金?”中,“异地购房”是以短语存在的限制条件信息。因此,需要首先将问句中的短语进行抽取。
在对问句进行依存句法分析的基础上,可以抽取ATT(定语关系)短语、VOB(偏正)短语、ADV(状中关系)、SBV(主谓关系)等句子簇要素。其中,在进行ATT(定语关系短语或偏正短语)抽取的情况下,可以提取所有由ATT关系构成的短语,比如“居民最低生活保障”是比较复杂的ATT关系链构成的ATT短语。在进行VOB(动宾短语)抽取的情况下,可以抽取所有VOB短语,例如,可以将VOB相关的两个单词及其之间的词汇整体抽取作为短语,比如“提取住房公积金”,其中“提取”与“公积金”之间是VOB关系,而“住房”在两个词之间,则整体抽取作为短语。
在本发明的另一实现方式中,确定每簇句子中的多个词语在该簇句子中的多个全局词性,还包括:基于语义依存关系,从每簇句子中,提取第一短语和第二短语;确定第一短语和第二短语之间的相似度;在相似度大于预设相似度阈值时,将第一短语和第二短语归一为短语。
由于不同短语之间的相似度越高,被抽取为相同句子簇要素的可能性越高,因此在相似度大于预设相似度阈值时,将第一短语和第二短语归一为短语,因此提高了句子簇要素提取的准确度。
换言之,可以对抽取到的短语进行归一处理(对齐处理)。由于抽取时短语的出现频率是信息关键度的排序指标之一,因此对意思相近的短语进行对齐,能够增加同意义短语的关键度,比如,将“租赁住房”和“租赁房屋”进行对齐或者称为归一。
在一个示例中,基于预训练词向量word2vec模型(一种用于产生词向量的模型)得到每个词的向量表示。可以将词表示相加得到短语的向量表示,并且利用向量的距离(例如,欧式距离、马氏距离、曼哈顿距离、切比雪夫距离等)得到短语的向量距离。可以基于Levenshtein距离(又被称为编辑距离)算法计算两个短语字符串之间的字符距离。
可以基于向量距离和符号距离中的任一者确定第一短语和第二短语之间的相似度。也可以对向量距离和符号距离两者进行整合,确定第一短语与第二短语之间的相似度。
在本发明的另一实现方式中,确定第一短语和第二短语之间的相似度,包括:确定第一短语与第二短语之间的向量相似度和字符相似度;对向量相似度和字符相似度进行均值处理,确定相似度。
由于向量相似度和字符相似度在不同的方面反映了不同文本向量之间的相似度,因此对向量相似度和字符相似度进行均值处理,确定相似度,提高了确定的相似度的准确度。
具体而言,可以设置对齐相似度阈值或归一相似度阈值,当两个短语之间的距离L小于相似度阈值时,则将两个短语对齐或归一。
在本发明的另一实现方式中,基于多个关键度的排序,从一组词语中,抽取句子簇要素,包括:基于多个关键度的排序,从一组名词中,分别抽取初始主语要素和定语要素;将初始主语要素和定语要素的组合确定为该簇句子的主语要素。
由于初始主语要素和定语要素通常为不同的词语,因此对初始主语要素和定语要素分别进行抽取,提高了抽取到的主语要素的准确度。
在本发明的另一实现方式中,基于多个关键度的排序,从一组名词中,分别抽取初始主语要素和定语要素,包括:基于多个关键度的排序,从一组名词中,确定当前初始主语候选名词;如果当前初始主语候选名词在该簇句子中作为初始主语要素和定语要素的比例大于第一预设阈值,则将当前初始主语候选名词确定为初始主语要素,如果比例不大于第一预设阈值,则基于多个关键度的排序,确定当前初始主语候选名词的下一名词。
由于该比例大于第一预设阈值指示当前初始主语候选名词具有足够的比重作为初始主语要素,并且该比例小于第一预设阈值指示当前初始主语候选名词不具有足够的比重作为初始主语要素,因此提高了所确定的初始主语要素的准确度。
具体而言,定语要素可以为修饰或描述初始主语要素的要素(例如,语法成分)。
在一个示例中,在用户提供了领域词的情况下,句子簇中提取到的关键词序列中含有该领域词,可以直接将领域词置为初始主语要素,例如,在公积金场景下,若聚类簇中的关键词序列含有“公积金“,则可以直接将公积金置为初始主语要素。
在另一示例中,在没有得到初始主语要素的情况下,可以将关键词序列中的第一个名词作为初始主语要素。另外,如果选取的初始主语要素在整个簇中是其他名词的定语的比例大于第一预定阈值(例如,0.5),可以放弃该主语要素,重新进行选择。
在另一示例中,在没有得到初始主语要素的情况下,可以将第一预设阈值的限制条件取消,重新抽取。
在另一示例中,可以根据选定的初始主语要素,在句子簇中确定其定语(也即满足ATT关系的词语),在定语比例占簇中句子数的比例大于第二预设阈值(例如,0.5)确定为最终的定语要素,并且将定语要素与初始主语要素整体作为主语要素。
在本发明的另一实现方式中,基于多个关键度的排序,从一组名词中,分别抽取初始主语要素和定语要素,还包括:基于多个关键度的排序,从一组名词中除初始主语要素之外的名词中,确定当前定语候选名词;如果当前定语候选名词在该簇句子中作为定语要素与初始主语要素的比例大于第二预设阈值,则将当前定语候选名词确定为定语要素。
由于该比例大于第二预设阈值指示当前定语候选名词具有足够的比重作为定语要素,因此提高了确定的定语要素的准确度。
在本发明的另一实现方式中,基于多个关键度的排序,从一组词语中,抽取句子簇要素,还包括:从多个词语中,确定与主语要素具有动作依存关系的一组词语;基于多个关键度的排序,从具有动作依存关系的一组词语中,确定该簇句子的谓语要素。
由于主语要素与谓语要素具有动作依存关系,因此基于多个关键度的排序,从具有动作依存关系的一组词语中,确定该簇句子的谓语要素,提高了所确定的谓语要素的准确度。
换言之,与特定领域的信息抽取方案不同,本发明实施例的方案先抽取主语要素,再抽取谓语要素。换言之,特定领域的信息抽取中的关系抽取需要关联两个实体才能进行关系抽取,本发明实施例的谓语要素抽取仅和主语要素相关。
在本发明的另一实现方式中,基于多个关键度的排序,从具有动作依存关系的一组词语中,确定该簇句子的谓语要素,包括:基于多个关键度的排序,从具有动作依存关系的一组词语中,将第一个动词确定为该簇句子的初始谓语要素,或者,基于多个关键度的排序,从具有动作依存关系的一组词语中除初始主语要素之外的词语中,将第一个名词确定为该簇句子的初始谓语要素;从与问句字符具有依存关系的一组词语中,确定状语要素;组合初始谓语要素和状语要素,得到谓语要素。
由于具有动作依存关系的一组词语中的第一个动词为每簇句子中的最重要的动词,因此将该动词确定为初始谓语要素,提高了初始谓语要素的准确度。此外,具有动作依存关系的一组词语中除初始主语要素之外的词语中的第一个名词为初始主语要素之外最重要的名字,因此将该名字确定为状语要素,提高了所确定的状语要素的准确度,进而提高了谓语要素的准确度。
具体而言,可以根据提取出的初始主语要素,抽取句子簇中和初始主语要素发生过VOB,IOB,FOB关系的词语,按照发生次数进行排序得到P_seq。
可以将P_seq中第一个出现在关键词序列中的词取出,作为初始谓语要素。在没有得到初始谓语要素的情况下,可以将关系词序列中的第一个动词作为初始谓语要素。在没有得到初始谓语要素的情况下,可以将关键词序列中除初始主语要素之外的第一个名词作为初始谓语要素。可以将在依存关系中与“什么”、“哪些”有定语(ATT)关系的词取出,并且将这些词中在聚类簇中的出现频次最大且大于第三预设阈值(例如,0.5)的词汇作为状语要素。可以将状语要素与初始谓语要素作为整体谓语要素输出。
在本发明的另一实现方式中,基于多个关键度的排序,从一组词语中,抽取句子簇要素,还包括:基于多个关键度的排序,从一组词语中的除主语要素和谓语要素之外的词语中,抽取条件要素。
由于条件要素在一组词语中的除主语要素和谓语要素之外的词语中的词语中,提高了由此所确定的条件要素的准确度。
具体而言,可以选取关键词排序中关键度最高的目标词汇,在各个短语中从前往后搜索含有该目标词汇,但是不包含定语要素,、初始主语要素、初始谓语要素的短语,搜索到则输出为条件要素,否则选择下一个关键词,继续搜索。此外,在没有抽取到的情况下,选择关键词中除去定语要素、初始主语要素、初始谓语要素之外的关键度最高的词作为条件要素。
在本发明的另一实现方式中,对经向量表示的句子集合进行聚类处理,得到多簇句子,包括:基于预设簇内句子数目,对经向量表示的句子集合进行聚类处理,得到多簇句子,其中,每簇句子中的句子数目不小于预设簇内句子数目。
由于预设簇内句子数目指示句子簇中用于统计的句子数,满足预设簇内句子数目的句子簇具有良好的统一精度。
在本发明的另一实现方式中,该方法还包括:基于场景关键词,对初始句子集合进行筛选处理,得到句子集合,其中,句子集合中的每个句子包括场景关键词。
由于基于场景关键词对初始句子集合进行筛选处理所得到的句子集合,与场景关键词指示的场景相关联,因此提高了抽取到的句子簇要素与该场景的匹配度。
作为一个示例,根据关键词筛选初始句子集合,得到句子集合。例如,公积金场景下筛选包含“公积金”的问句。又例如,在保险场景下筛选包含“保险”的问句。
作为另一示例中,抽取场景特有词汇(例如,各类保险名称等)。如果无法直接获取,可以采用规则式的抽取部分特有词汇。
作为另一示例中,可以通过去除停用词、或者进行格式转换等方式对初始句子集合进行筛选,得到句子集合。
图1B为本发明的另一实施例的主语要素抽取方法的示意性流程图。如图所示,在步骤201中,在用户提供了领域词的情况下,若通过句子簇得到的关键词序列中含有该领域词,则直接将领域词置为初始主语要素。
在步骤202中,若在步骤201中没有得到初始主语要素,则关键词序列中的第一个名词作为初始主语要素。
在步骤203中,如果在步骤202中没有得到初始主语要素,则重新抽取。
在步骤204在,根据选定的初始主语要素,在句子簇中寻找其定语关系词语,将定语比例占簇中句子数大于第一预设阈值词语作为最终的定语要素。
在步骤205中,将定语要素与初始主语要素整体作为主语要素。
图1C为本发明的另一实施例的谓语要素抽取方法的示意性流程图。如图所示,在步骤301中,根据提取出的初始主语要素,抽取句子簇中和初始主语要素发生过VOB,IOB,FOB关系的词语,按照发生次数进行排序得到P_seq。
在步骤302中,将P_seq中第一个出现在关键词序列中的词取出,作为初始谓语要素。
在步骤303中,如果在步骤302中没有得到初始谓语要素,则将关系词序列中的第一个动词作为初始谓语要素。
在步骤304中,如果在步骤303中没有得到初始谓语要素,则将关键词序列中除初始主语要素之外的第一个名词作为初始谓语要素。
在步骤305中,将在依存关系中与问句标识词语有定语关系的词取出,并且将这些词中在聚类簇中的出现频次最大且大于第三阈值的词汇作为状语要素。
在步骤306中,将状语要素与初始谓语要素作为整体谓语要素输出。
图2为本发明的另一实施例的表单结构生成方法的示意性流程图。本实施例的方法可以适用于任意适当的具有数据处理能力的电子设备,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。图2的表单结构生成方法包括:
210:对问句集合中的每个问句进行向量表示。
220:对经向量表示的问句集合进行聚类处理,得到多簇问句。
230:基于每簇问句进行句子簇要素抽取,生成问句集合的知识图谱表单结构。
在本发明实施例的方案中,由于句子簇要素抽取得到的句子簇要素适用于经由聚类处理得到的多簇问句中的每个问句,因此实现了与场景无关的信息抽取。
图3为本发明的另一实施例的表单结构生成装置的示意性框图。本实施例的方法可以适用于任意适当的具有数据处理能力的电子设备,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。图3的表单结构构生成装置包括:
向量表示模块310,对句子集合中的每个句子进行向量表示。
聚类处理模块320,对经向量表示的句子集合进行聚类处理,得到多簇句子。
要素抽取模块330,基于每簇句子进行句子簇要素抽取,生成句子集合的表单结构。
在本发明实施例的方案中,由于句子簇要素抽取得到的句子簇要素适用于经由聚类处理得到的多簇句子中的每个句子,因此实现了与场景无关的信息抽取。
在本发明的另一实现方式中,要素抽取模块具体用于:确定每簇句子中的多个词语在该簇句子中的多个全局词性;在多个词语中,确定全局词性符合该簇句子的句子簇要素的词性的一组词语;从一组词语中,抽取句子簇要素。
在本发明的另一实现方式中,要素抽取模块具体用于:确定一组词语中的多个词语的多个关键度;基于多个关键度的排序,从一组词语中,抽取句子簇要素。
在本发明的另一实现方式中,要素抽取模块具体用于:确定每簇句子中的每个词语在该簇句子中的多个句子的词性概率分布,以得到多个词语的多个词性概率分布;将每个词语的词性概率分布中的概率最大的词性确定为该词语在该簇句子中的全局词性,以得到多个全局词性。
在本发明的另一实现方式中,要素抽取模块还用于:基于每簇句子中的短语中的关键词在每个句子的全局词性,确定该短语在该句子中的词性;根据该短语在多个句子中的词性,确定该短语的词性概率分布。
在本发明的另一实现方式中,要素抽取模块还用于:基于语义依存关系,从每簇句子中,提取第一短语和第二短语;确定第一短语和第二短语之间的相似度;在相似度大于预设相似度阈值时,将第一短语和第二短语归一为短语。
在本发明的另一实现方式中,要素抽取模块具体用于:确定第一短语与第二短语之间的向量相似度和字符相似度;对向量相似度和字符相似度进行均值处理,确定相似度。
在本发明的另一实现方式中,要素抽取模块具体用于:基于多个关键度的排序,从一组名词中,分别抽取初始主语要素和定语要素;将初始主语要素和定语要素的组合确定为该簇句子的主语要素。
在本发明的另一实现方式中,要素抽取模块具体用于:基于多个关键度的排序,从一组名词中,确定当前初始主语候选名词;如果当前初始主语候选名词在该簇句子中作为初始主语要素和定语要素的比例大于第一预设阈值,则将当前初始主语候选名词确定为初始主语要素,如果比例不大于第一预设阈值,则基于多个关键度的排序,确定当前初始主语候选名词的下一名词。
在本发明的另一实现方式中,要素抽取模块具体还用于:基于多个关键度的排序,从一组名词中除初始主语要素之外的名词中,确定当前定语候选名词;如果当前定语候选名词在该簇句子中作为定语要素与初始主语要素的比例大于第二预设阈值,则将当前定语候选名词确定为定语要素。
在本发明的另一实现方式中,要素抽取模块还用于:从多个词语中,确定与主语要素具有动作依存关系的一组词语;基于多个关键度的排序,从具有动作依存关系的一组词语中,确定该簇句子的谓语要素。
在本发明的另一实现方式中,要素抽取模块具体用于:基于多个关键度的排序,从具有动作依存关系的一组词语中,将第一个动词确定为该簇句子的初始谓语要素,或者,基于多个关键度的排序,从具有动作依存关系的一组词语中除初始主语要素之外的词语中,将第一个名词确定为该簇句子的初始谓语要素;从与问句字符具有依存关系的一组词语中,确定状语要素;组合初始谓语要素和状语要素,得到谓语要素。
在本发明的另一实现方式中,要素抽取模块还用于:基于多个关键度的排序,从一组词语中的除主语要素和谓语要素之外的词语中,抽取条件要素。
在本发明的另一实现方式中,聚类处理模块具体用于:基于预设簇内句子数目,对经向量表示的句子集合进行聚类处理,得到多簇句子,其中,每簇句子中的句子数目不小于预设簇内句子数目。
在本发明的另一实现方式中,该装置还包括:句子筛选模块,基于场景关键词,对初始句子集合进行筛选处理,得到句子集合,其中,句子集合中的每个句子包括场景关键词。
本实施例的装置用于实现前述多个方法实施例中相应的方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
图4为本发明的另一实施例的表单结构生成装置的示意性框图。本实施例的方法可以适用于任意适当的具有数据处理能力的电子设备,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。图4的表单结构生成装置包括:
向量表示模块410,对问句集合中的每个问句进行向量表示。
聚类处理模块420,对经向量表示的问句集合进行聚类处理,得到多簇问句。
要素抽取模块430,基于每簇问句进行句子簇要素抽取,生成问句集合的知识图谱表单结构。
在本发明实施例的方案中,由于句子簇要素抽取得到的句子簇要素适用于经由聚类处理得到的多簇问句中的每个问句,因此实现了与场景无关的信息抽取。
本实施例的装置用于实现前述多个方法实施例中相应的方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
图5为本发明的另一实施例的电子设备的硬件结构;如图5所示,该电子设备的硬件结构可以包括:处理器501,通信接口502,存储介质503和通信总线504;
其中处理器501、通信接口502、存储介质503通过通信总线504完成相互间的通信;
可选地,通信接口502可以为通信模块的接口;
其中,处理器501具体可以配置为:对句子集合中的每个句子进行向量表示;对经向量表示的句子集合进行聚类处理,得到多簇句子;基于每簇句子进行句子簇要素抽取,生成所述句子集合的表单结构;
或者,对问句集合中的每个问句进行向量表示;对经向量表示的问句集合进行聚类处理,得到多簇问句;基于每簇问句进行句子簇要素抽取,生成所述问句集合的知识图谱表单结构。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
上述的存储介质可以是,但不限于,随机存取存储介质(Random Access Memory,RAM),只读存储介质(Read Only Memory,ROM),可编程只读存储介质(Programmable Read-Only Memory,PROM),可擦除只读存储介质(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储介质(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在存储介质上的计算机程序,该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本发明的方法中限定的上述功能。需要说明的是,本发明所述的存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。存储介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何存储介质,该存储介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写配置为执行本发明的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络:包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系,但这些先后关系只是示例性的,在具体实现的时候,这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所描述的方法。
作为另一方面,本发明还提供了一种存储介质,该存储介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述存储介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:对句子集合中的每个句子进行向量表示;对经向量表示的句子集合进行聚类处理,得到多簇句子;基于每簇句子进行句子簇要素抽取,生成所述句子集合的表单结构;
或者,对问句集合中的每个问句进行向量表示;对经向量表示的问句集合进行聚类处理,得到多簇问句;基于每簇问句进行句子簇要素抽取,生成所述问句集合的知识图谱表单结构。
在本公开的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关,但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。例如,第一用户设备和第二用户设备表示不同的用户设备,虽然两者均是用户设备。例如,在不背离本公开的范围的前提下,第一元件可称作第二元件,类似地,第二元件可称作第一元件。
当一个元件(例如,第一元件)称为与另一元件(例如,第二元件)“(可操作地或可通信地)联接”或“(可操作地或可通信地)联接至”另一元件(例如,第二元件)或“连接至”另一元件(例如,第二元件)时,应理解为该一个元件直接连接至该另一元件或者该一个元件经由又一个元件(例如,第三元件)间接连接至该另一个元件。相反,可理解,当元件(例如,第一元件)称为“直接连接”或“直接联接”至另一元件(第二元件)时,则没有元件(例如,第三元件)插入在这两者之间。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (12)
1.一种表单结构生成方法,包括:
对句子集合中的每个句子进行向量表示;
对经向量表示的句子集合进行聚类处理,得到多簇句子;
基于每簇句子进行句子簇要素抽取,生成所述句子集合的表单结构。
2.根据权利要求1所述的方法,其中,所述基于每簇句子进行句子簇要素抽取,包括:
确定每簇句子中的多个词语在该簇句子中的多个全局词性;
在所述多个词语中,确定全局词性符合该簇句子的句子簇要素的词性的一组词语;
从所述一组词语中,抽取所述句子簇要素。
3.根据权利要求2所述的方法,其中,所述从所述一组词语中,抽取所述句子簇要素,包括:
确定所述一组词语中的多个词语的多个关键度;
基于所述多个关键度的排序,从所述一组词语中,抽取所述句子簇要素。
4.根据权利要求2所述的方法,其中,所述确定每簇句子中的多个词语在该簇句子中的多个全局词性,包括:
确定每簇句子中的每个词语在该簇句子中的多个句子的词性概率分布,以得到多个词语的多个词性概率分布;
将每个词语的词性概率分布中的概率最大的词性确定为该词语在该簇句子中的全局词性,以得到多个全局词性。
5.根据权利要求4所述的方法,其中,所述确定每簇句子中的多个词语在该簇句子中的多个全局词性,还包括:
基于每簇句子中的短语中的关键词在每个句子的全局词性,确定该短语在该句子中的词性;
根据该短语在所述多个句子中的词性,确定该短语的词性概率分布。
6.根据权利要求5所述的方法,其中,所述确定每簇句子中的多个词语在该簇句子中的多个全局词性,还包括:
基于语义依存关系,从每簇句子中,提取第一短语和第二短语;
确定所述第一短语和所述第二短语之间的相似度;
在所述相似度大于预设相似度阈值时,将所述第一短语和所述第二短语归一为所述短语。
7.根据权利要求6所述的方法,其中,所述确定所述第一短语和所述第二短语之间的相似度,包括:
确定所述第一短语与所述第二短语之间的向量相似度和字符相似度;
对所述向量相似度和所述字符相似度进行均值处理,确定所述相似度。
8.根据权利要求3所述的方法,其中,所述基于所述多个关键度的排序,从所述一组词语中,抽取所述句子簇要素,包括:
基于所述多个关键度的排序,从所述一组名词中,分别抽取初始主语要素和定语要素;
将所述初始主语要素和所述定语要素的组合确定为该簇句子的主语要素。
9.根据权利要求1所述的方法,其中,所述对经向量表示的句子集合进行聚类处理,得到多簇句子,包括:
基于预设簇内句子数目,对经向量表示的句子集合进行聚类处理,得到所述多簇句子,其中,每簇句子中的句子数目不小于所述预设簇内句子数目。
10.根据权利要求1所述的方法,其中,所述方法还包括:
基于场景关键词,对初始句子集合进行筛选处理,得到所述句子集合,其中,所述句子集合中的每个句子包括所述场景关键词。
11.一种表单结构生成装置,包括:
向量表示模块,对句子集合中的每个句子进行向量表示;
聚类处理模块,对经向量表示的句子集合进行聚类处理,得到多簇句子;
要素抽取模块,基于每簇句子进行句子簇要素抽取,生成所述句子集合的表单结构。
12.一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-10中任一项权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110750642.3A CN115563291A (zh) | 2021-07-02 | 2021-07-02 | 表单结构生成方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110750642.3A CN115563291A (zh) | 2021-07-02 | 2021-07-02 | 表单结构生成方法、装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115563291A true CN115563291A (zh) | 2023-01-03 |
Family
ID=84736808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110750642.3A Pending CN115563291A (zh) | 2021-07-02 | 2021-07-02 | 表单结构生成方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115563291A (zh) |
-
2021
- 2021-07-02 CN CN202110750642.3A patent/CN115563291A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9652719B2 (en) | Authoring system for bayesian networks automatically extracted from text | |
US20150310096A1 (en) | Comparing document contents using a constructed topic model | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
US11983640B2 (en) | Generating question templates in a knowledge-graph based question and answer system | |
CN110674255B (zh) | 文本内容审核方法及装置 | |
CN110222194B (zh) | 基于自然语言处理的数据图表生成方法和相关装置 | |
US10810246B2 (en) | Ontology refinement based on query inputs | |
CN111194401B (zh) | 意图识别的抽象和可移植性 | |
CN112507153B (zh) | 用于图像检索的方法、计算设备和计算机存储介质 | |
US10678625B2 (en) | Log-based computer system failure signature generation | |
CN109783806A (zh) | 一种利用语义解析结构的文本匹配方法 | |
CN109582954A (zh) | 用于输出信息的方法和装置 | |
CN111723192B (zh) | 代码推荐方法和装置 | |
CN112528661A (zh) | 实体相似度计算方法 | |
CN113626608B (zh) | 增强语义的关系抽取方法、装置、计算机设备及存储介质 | |
CN115221191A (zh) | 一种基于数据湖的虚拟列构建方法以及数据查询方法 | |
CN114327609A (zh) | 一种代码补全方法、模型和工具 | |
Yu et al. | Unsupervised slot schema induction for task-oriented dialog | |
De la Higuera et al. | Computing the most probable string with a probabilistic finite state machine | |
CN110287487A (zh) | 主谓语识别方法、装置、设备及计算机可读存储介质 | |
CN115563291A (zh) | 表单结构生成方法、装置和存储介质 | |
CN112307235B (zh) | 前端页面元素的命名方法、装置及电子设备 | |
US11017172B2 (en) | Proposition identification in natural language and usage thereof for search and retrieval | |
CN116226541B (zh) | 一种基于知识图谱的网络热点信息推荐方法、系统及设备 | |
CN117573956B (zh) | 元数据管理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240319 Address after: 51 Belarusian Pasha Road, Singapore, Lai Zan Da Building 1 # 03-06, Postal Code 189554 Applicant after: Alibaba Innovation Co. Country or region after: Singapore Address before: Room 01, 45th Floor, AXA Building, 8 Shanton Road, Singapore Applicant before: Alibaba Singapore Holdings Ltd. Country or region before: Singapore |
|
TA01 | Transfer of patent application right |