CN110096573B - 一种文本解析方法及装置 - Google Patents
一种文本解析方法及装置 Download PDFInfo
- Publication number
- CN110096573B CN110096573B CN201910333278.3A CN201910333278A CN110096573B CN 110096573 B CN110096573 B CN 110096573B CN 201910333278 A CN201910333278 A CN 201910333278A CN 110096573 B CN110096573 B CN 110096573B
- Authority
- CN
- China
- Prior art keywords
- text
- target
- relationship
- context
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明实施例公开了一种文本解析方法及相关设备,包括:首先当检测到目标文本时,确定目标文本的主题类型;接着根据所述主题类型,从预设的多个知识图谱中查找目标知识图谱,该目标知识图谱包括所述主题类型对应的R个文本片段之间的上下文关系;然后根据目标知识图谱,确定目标文本中的M个文本片段、以及M个文本片段之间的上下文关系;最后根据M个文本片段之间的上下文关系,确定目标文本的语义。采用本发明实施例,可以提高文本语义解析的精确性,从而提高文本匹配效率和准确度。
Description
技术领域
本发明涉及文本处理技术领域,尤其涉及一种文本解析方法及装置。
背景技术
微信的智能问答系统旨在根据用户输入的问题文本理解用户需求,快速从知识库中搜索满足用户需求的答案,并将答案正确清晰地展现给用户。与传统搜索不同,智能问答往往针对垂类,需要极细粒度的知识理解,对问题与答案的匹配准确度要求极高、容错性低。因此,在智能问答系统中,如何准确解析问题文本和知识库中的各个文档的语义是影响问题与答案的匹配精确性的关键一环、也是影响智能问答系统的可靠性和用户体验的决定性因素。
发明内容
本发明提供一种文本解析方法及装置,可以提高文本语义解析的精确性,从而提高文本匹配效率和准确度。
第一方面,本发明实施例提供了一种文本解析方法,包括:
当检测到目标文本时,确定所述目标文本的主题类型;
根据所述主题类型,从预设的多个知识图谱中查找目标知识图谱,所述目标知识图谱包括所述主题类型对应的R个文本片段之间的上下文关系,所述R为任意整数;
根据所述目标知识图谱,确定所述目标文本中的M个文本片段、以及所述M个文本片段之间的上下文关系,所述M为大于1且不大于R的整数;
根据所述M个文本片段之间的上下文关系,确定所述目标文本的语义。
其中,所述根据所述目标知识图谱,确定所述目标文本中的M个文本片段包括:
对所述目标文本进行分词处理得到所述目标文本的分词信息,所述分词信息包括所述目标文本中的多个单词;
根据所述目标知识图谱和所述多个单词,确定N个候选文本片段,所述N为不小于M的整数;
确定所述N个候选文本片段中每个候选文本片段的语义信息;
根据所述语义信息,从所述N个候选文本片段中选择所述M个文本片段。
其中,所述上下文关系包括第一上下文关系;
所述根据所述目标知识图谱,确定所述M个文本片段之间的关系包括:
确定所述M个文本片段中的第x个文本片段和第y个文本片段之间的匹配信息,所述匹配信息包括文本类型、词性以及位置信息中的至少一项,其中,所述x为不大于M的整数,所述y为不大于M且不等于x的整数;
根据所述目标知识图谱和所述匹配信息,确定所述第x个文本片段和所述第y个文本片段之间是否存在第一上下文关系;
当所述第x个文本片段和所述第y个文本片段之间存在第一上下文关系时,将所述第一上下文关系存入关系候选集。
其中,所述上下文关系包括第二上下文关系;
所述方法还包括:
确定所述第x个文本片段的第一文本类型和所述第y个文本片段的第二文本类型;
根据所述第一文本类型和所述第二文本类型,确定所述第x个文本片段和所述第y个文本片段之间是否存在第二文本关系;
当所述第x个文本片段和所述第y个文本片段之间存在第二上下文关系时,将所述第二上下文关系存入所述关系候选集。
其中,所述根据所述M个实体之间的上下文关系,确定所述目标文本的语义包括:
获取所述目标文本对应的关系消歧信息,所述关系消歧信息包括预设的逻辑推理规则、词权重、所述目标文本的语言模型特征中的至少一项;
根据所述关系消歧信息,从所述关系候选集中选择目标上下文关系;
根据所述目标上下文关系,确定所述目标文本的语义。
其中,所述根据所述关系消歧信息,从所述关系候选集中选择目标上下文关系包括:
确定所述关系候选集中的每种候选关系是否符合所述逻辑推理规则,所述逻辑推理规则包括修饰逻辑推理规则、上下位逻辑推理规则和同义逻辑推理规则中的至少一种;
将符合所述推理逻辑的候选关系确定为所述目标上下文关系。
其中,所述根据所述关系消歧信息,从所述关系候选集中选择目标上下文关系包括:
根据所述关系消歧信息,确定所述关系候选集中的每种候选关系的第一置信度;
根据所述第一置信度,确定所述目标上下文关系。
其中,所述根据所述关系消歧信息,确定所述关系候选集中的每种候选关系的第一置信度包括:
确定所述每种候选关系对应的两个文本片段在所述目标文本中的词权重;
将所述两个文本片段的词权重之和作为所述每种候选关系的第一置信度。
其中,所述根据所述关系消歧信息,确定所述关系候选集中的每种候选关系的第一置信度包括:
确定所述目标文本中的多个单词相对所述关系候选集中的第k种候选关系对应的两个文本片段的位置特征、以及所述第k种候选关系与所述关系候选集中的其他候选关系的冲突特征,其中,所述k不大于所述关系候选集的基数的整数;
将所述语言模型特征、所述位置特征、所述冲突特征、所述第k种候选关系以及所述关系候选集输入预设的置信度评估模型,确定所述第k种候选关系的第一置信度。
其中,所述目标文本包括上下文关词;
所述根据所述目标上下文关系,确定所述目标文本的语义之后,还包括:
确定所述上下文无关词的数量;
当所述上下文无关词的数量超过第一阈值时,按照第一下调比例调整所述目标上下文关系的第一置信度;
根据调整后的所述第一置信度,确定所述语义的第二置信度。
其中,所述根据所述目标上下文关系,确定所述目标文本的语义之后,还包括:
确定所述上下文无关词的词权重;
当所述上下文无关词的词权重超过第二阈值时,按照第二下调比例调整所述目标上下文关系的第一置信度;
根据调整后的所述第一置信度,确定所述语义的第二置信度。
其中,所述当检测到目标文本时,确定所述目标文本的主题类型包括:
确定所述目标文本中的关键词;根据所述关键词,确定所述主题类型。
第二方面,本发明实施例提供了一种文本解析装置,包括:
确定模块,用于当检测到目标文本时,确定所述目标文本的主题类型;
查找模块,用于根据所述主题类型,从预设的多个知识图谱中查找目标知识图谱,所述目标知识图谱包括所述主题类型对应的R个文本片段之间的上下文关系,所述R为所述R为大于1整数;
解析模块,用于根据所述目标知识图谱,确定所述目标文本中的M个文本片段、以及所述M个文本片段之间的上下文关系,所述M为大于1且不大于R的整数;
所述确定模块,还用于根据所述M个文本片段之间的上下文关系,确定所述目标文本的语义。
其中,所述解析模块还用于:
对所述目标文本进行分词处理得到所述目标文本的分词信息,所述分词信息包括所述目标文本中的多个单词;
根据所述目标知识图谱和所述多个单词,确定N个候选文本片段,所述N为不小于M的整数;
确定所述N个候选文本片段中每个候选文本片段的语义信息;
根据所述语义信息,从所述N个候选文本片段中选择所述M个文本片段。
其中,所述上下文关系包括第一上下文关系;
所述解析模块还用于:
确定所述M个文本片段中的第x个文本片段和第y个文本片段之间的匹配信息,所述匹配信息包括文本类型、词性以及位置信息中的至少一项,其中,所述x为不大于M的整数,所述y为不大于M且不等于x的整数;
根据所述目标知识图谱和所述匹配信息,确定所述第x个文本片段和所述第y个文本片段之间是否存在第一上下文关系;
当所述第x个文本片段和所述第y个文本片段之间存在第一上下文关系时,将所述第一上下文关系存入关系候选集。
其中,所述上下文关系包括第二上下文关系;
所述解析模块还用于:
确定所述第x个文本片段的第一文本类型和所述第y个文本片段的第二文本类型;
根据所述第一文本类型和所述第二文本类型,确定所述第x个文本片段和所述第y个文本片段之间是否存在所述第二上下文关系;
当所述第x个文本片段和所述第y个文本片段之间存在所述第二上下文关系时,将所述第二上下文关系存入所述关系候选集。
其中,所述解析模块还用于:
获取所述目标文本对应的关系消歧信息,所述关系消歧信息包括预设的逻辑推理规则、词权重、所述目标文本的语言模型特征中的至少一项;
根据所述关系消歧信息,从所述关系候选集中选择目标上下文关系;
根据所述目标上下文关系,确定所述目标文本的语义。
其中,所述解析模块还用于:
确定所述关系候选集中的每种候选关系是否符合所述逻辑推理规则,所述逻辑推理规则包括修饰逻辑推理规则、上下位逻辑推理规则和同义逻辑推理规则中的至少一种;
将符合所述推理逻辑的候选关系确定为所述目标上下文关系。
其中,所述解析模块还用于:
根据所述关系消歧信息,确定所述关系候选集中的每种候选关系的第一置信度;
根据所述第一置信度,确定所述目标上下文关系。
其中,所述解析模块还用于:
确定所述每种候选关系对应的两个文本片段在所述目标文本中的词权重;
将所述两个文本片段的词权重之和作为所述每种候选关系的第一置信度。
其中,所述解析模块还用于:
确定所述目标文本中的多个单词相对所述关系候选集中的第k种候选关系对应的两个文本片段的位置特征、以及所述第k种候选关系与所述关系候选集中的其他候选关系的冲突特征,其中,所述k不大于所述关系候选集的基数的整数;
将所述语言模型特征、所述位置特征、所述冲突特征、所述以及所述关系候选集输入预设的置信度评估模型,确定所述第k种候选关系的第一置信度。
其中,所述目标文本包括上下文无关词;
所述解析模块还用于:
确定所述上下文无关词的数量;
当所述上下文无关词的数量超过第一阈值时,按照第一下调比例调整所述目标上下文关系的第一置信度;
根据调整后的所述第一置信度,确定所述语义的第二置信度。
其中,所述目标文本包括上下文无关词;
所述解析模块还用于:
确定所述上下文无关词的词权重;
当所述上下文无关词的词权重超过第二阈值时,按照第二下调比例调整所述目标上下文关系第一置信度;
根据调整后的所述第一置信度,确定所述语义的第二置信度。
其中,所述确定模块还用于:
确定所述目标文本中的关键词;根据所述关键词,确定所述主题类型。
第三方面,本发明实施例提供了另一种文本解析装置,包括:处理器、存储器和通信总线,其中,通信总线用于实现处理器和存储器之间连接通信,处理器执行存储器中存储的程序用于实现上述第一方面提供的文本解析方法中的步骤。
本发明实施例的又一方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有多条指令,所述指令适于由处理器加载并执行上述各方面所述的方法。
本发明实施例的又一方面提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
实施本发明实施例,首先当检测到目标文本时,确定目标文本的主题类型;接着根据所述主题类型,从预设的多个知识图谱中查找目标知识图谱,所述目标知识图谱包括所述主题类型对应的R个文本片段和R个文本片段之间的上下文关系;然后根据目标知识图谱,确定目标文本中的M个文本片段、以及M个文本片段之间的上下文关系;最后根据M个文本片段之间的上下文关系,确定所述目标文本的语义。可以提高文本语义解析的精确性,从而提高文本匹配效率和准确度。
附图说明
为了更清楚地说明本发明实施例或背景技术中的技术方案,下面将对本发明实施例或背景技术中所需要使用的附图进行说明。
图1是本申请实施例提供的一种智能问答系统的结构示意图;
图2是本发明实施例提供的一种知识图谱的示意图;
图3是本发明实施例提供的一种文本解析方法的流程示意图;
图4是本发明实施例提供的另一种知识图谱的示意图;
图5是本发明实施例提供的另一种文本解析方法的流程示意图;
图6是本发明实施例提供的一种置信度评估模型的结构示意图;
图7是本发明实施例提供的一种文本解析装置的结构示意图;
图8是本发明实施例提供的一种文本解析设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,图1为本发明实施例提供的一种智能问答系统的结构示意图。如图所示,该系统包括业务执行模块和知识库构建模块。其中,知识库构建模块可以搜索各个知识领域(如医疗领域、客户服务领域)的相关文本,并基于搜索到的文本以及已有的知识库进行实体挖掘、实体关系抽取、知识图谱构建以及校验等操作,其中,实体可以是指客观存在并可相互区别的事物,如“北京”为地名实体、“张三”为人名实体等等。实体还可以是指一个具体的操作,如“删除”、“找回”等等,其中,知识图谱中的每个实体对应该实体所在文本的一个文本片段。知识图谱为包含多个节点的网络图,其中,多个节点之间相互连接,每个节点表示一个实体,连接每两个节点的边用于表示被连接两个实体之间的关系。例如,如图2所示,图2是一个与感冒相关的知识图谱,知识图谱包括“感冒”、“咳嗽”、“川贝”等多个实体节点,其中,“感冒”和“咳嗽”两个实体节点之间的关系为疾病-症状关系,“咳嗽”与“川贝”两个实体节点之间的关系为症状-药物。
基于知识库构建模块所构建的知识库和知识图谱,业务执行模块可以对用户的查询/问答请求进行处理,主要包括以下步骤:1、查询(Query)意图分发:基于知识图谱解析用户输入的问题文本,以便识别并分发用户的Query意图;2、文档解析:基于知识图谱,对知识库中与Query意图所属的知识领域对应的文档的标题进行解析;3、语义匹配:将Query意图和文档标题的解析结果进行匹配;4、粗排/精排:将与Query意图相匹配的文档进行排列,其中,可以对文档进行任意排列、也可以根据匹配度进行精细排列。基于上述系统,本发明实施例提供了以下文本解析方法,可以用于对用户输入的问题文本和知识库中的文档标题进行解析。
请参见图3,图3是本发明实施例提供的一种文本解析方法的流程示意图,该方法包括但不限于如下步骤:
S301,当检测到目标文本时,确定所述目标文本的主题类型。
具体实现中,可以首先确定目标文本的关键词;接着根据关键词确定目标文本的主题类型。其中,可以针对每种主题类型预设一个或多个关键词,然后将目标文本的关键词与预设关键词进行匹配,并将与目标文本的关键词相匹配的预设关键词所对应的主题类型确定为目标文本的主题类型。其中,目标文本可以是用户输入问题文本,也可以是任意文档的标题。主题类型可以包括但不限于医疗类、美妆类以及客服类。
例如:在智能问答系统中,用户输入的问题文本为“怎么治疗小孩咳嗽”,则首先确定该问题文本的关键词为“咳嗽”。其中,美妆类的关键词包括“隔离霜”、“防晒霜”、医疗类的关键词包括“咳嗽”、“青霉素”以及客服类的关键词包括“星标好友”、“朋友圈”。则经过匹配确定“咳嗽”与医疗类关键词“咳嗽”相同,则确定问题文本的主题类型为医疗类。
在另一种可能的实现中,为了提高匹配效率,可以直接将预设关键词与目标文本进行匹配;然后将与目标文本匹配的预设关键词对应的主题类型确定为目标文本的主题类型。
例如:在智能问答系统中,美妆类的关键词包括“隔离霜”、“防晒霜”,医疗类的关键词包括“咳嗽”、“青霉素”,客服类的关键词包括“星标好友”、“账号注册”。当用户输入的问题文本为“怎么治疗小孩咳嗽”,确定医疗类的关键词“咳嗽”与该问题文本相匹配,则确定问题文本的主题类型为医疗类。
S302,根据所述主题类型,从预设的多个知识图谱中查找目标知识图谱。
具体实现中,每个知识图谱对应一种主题类型,因此可以将目标文本的主题类型与预设的每个知识图谱对应的主题类型进行匹配,将与之相匹配的主题类型对应的知识图谱确定为目标知识图谱。其中,目标知识图谱中包括与目标文本的主题类型对应的R个文本片段之间的上下文关系,R为大于1的整数。其中,文本片段可以是指文本中的实体(如人名实体、地名实体)对应的文本片段,因此知识图谱中的每个文本片段均对应一个实体,也可以说知识图谱中的每个实体对应一个文本片段。例如,“张三”为一个文本片段,同时也是一个人名实体、“北京”为一个文本片段,同时也是一个地名实体。
需要说明的是,可以根据实际应用场景,确定多种主题类型,然后针对每种主题类型,定制一个知识图谱,还可以定期对知识图谱进行更新。其中,每种主题类型对应的知识图谱所包括的实体的数量、实体之间的关系以及所包括实体类型可以不同。例如:客服类的主题类型对应的知识图谱可以包括产品型实体和操作型实体,实体之间的关系可以包括但不限于产品-操作关系、产品-修饰关系、上下位关系以及同义关系。医疗类的主题类型对应的知识图谱可以包括疾病型实体、症状型实体和药物型实体,实体之间的关系可以包括但不限于疾病-症状关系、症状-药物关系、药物-属性关系以及药物-发现者关系。
S303,根据所述目标知识图谱,确定所述目标文本中的M个文本片段、以及所述M个文本片段之间的上下文关系。
具体实现中,首先可以利用jieba分词等分词技术目标文本进行分词处理,得到目标文本的分词信息,其中,分词信息可以包括目标文本中的多个单词,还可以包括多个单词中每个单词的词性和词权重。
例如:目标文本为“怎么注册微信账号”,则可以利用jieba分词技术将目标文本分词为“怎么/注册/微信/账号”,其中“/”为分词符。进一步可以得到该目标文本的分词信息,如表1所示,分词信息包括目标文本所包含的所有单词:“怎么”、“注册”、“微信”和“账号”,以及每个单词的词性以及词权重。
表1.目标文本的分词信息
单词 | 怎么 | 注册 | 微信 | 账号 |
词性 | 副词 | 动词 | 名词 | 名词 |
词权重 | 0.2 | 0.94 | 0.82 | 0.87 |
然后,将目标文本包含的多个单词与目标知识图谱中的每个文本片段的内容进行匹配,以便确定M个文本片段以及M个文本片段之间的上下文关系。M个文本片段之间的上下文关系可以是指M个文本片段对应的实体在目标知识图谱中的实体关系。
例如:目标文本包括4个文本片段:“怎么”、“注册”、“微信”和“账号”,则根据如图4所示的知识图谱,可以确定“微信”和“账号”为产品型的实体,“注册”为操作型实体,并且“注册”-“账号”之间存在产品-操作型关系,“微信”-“账号”之间存在产品-修饰型关系。
可选的,还可以根据知识图谱,对候选文本片段进行归一化。例如,可以根据如图4所示的知识图谱,将“删掉”归一化为“删除”。
S304,根据所述M个文本片段之间的关系,确定所述目标文本的语义。
具体实现中,可以根据M个文本片段之间所存在的上下文关系,即M个文本片段对应的实体之间的实体关系、以及该实体关系的类型,如产品-修饰型、产品-操作型,确定目标文本的语义。
例如:目标文本中包括“注册”-“账号”为产品-操作型实体关系和“微信”-“账号”为产品-修饰型关系,则首先根据“注册”-“账号”,确定该目标文本的核心语义为注册账号,然后根据“微信”-“账号”,确定该目标文本的语义为注册微信社交平台中的账号。
在本发明实施例中,首先当检测到目标文本时,确定目标文本的主题类型;接着根据所述主题类型,从预设的多个知识图谱中查找目标知识图谱,其中,目标知识图谱包括所述主题类型对应的R个文本片段和R个文本片段之间的上下文关系;然后根据目标知识图谱,确定目标文本中的M个文本片段、以及M个文本片段之间的上下文关系;最后根据M个文本片段之间的上下文关系,确定所述目标文本的语义。可以提高文本语义解析的精确性,从而提高智能问答系统中问题与答案的匹配效率和准确度。
请参见图5,图5是本发明实施例提供的另一种文本解析方法的流程示意图,如图所示,该方法包括但不限于如下步骤:
S501,当检测到目标文本时,确定所述目标文本的主题类型。本步骤与上一实施例中的S301相同,本步骤不再赘述。
S502,根据主题类型,从预设的多个知识图谱中查找目标知识图谱。本步骤与上一实施例中的S302相同,本步骤不再赘述。
S503,根据目标知识图谱,确定目标文本中N个候选文本片段。
具体实现中,可以首先对目标文本进行分词处理,得到目标文本的分词信息,分词信息可以包括目标文本所包含的所有单词,还可以包括每个单词的词性和词权重。接着,根据目标知识图谱和分词得到的多个单词,确定N个候选文本片段,其中,N为大于1的整数。其中,可以但不限于使用双字典匹配的方法将每个单词与目标知识图谱中的每个文本片段进行匹配,其中,目标知识图谱中的每个实体对应一个文本片段。若某个单词与目标知识图谱中的某个实体对应的文本片段相匹配,则将该单词确定为候选文本片段。
例如:如图4所示,微信客服务类的知识图谱中包括产品型实体“好友”、“微信”、“账号””,还包括操作类的实体“删除”、“注册”和“找回”。其中,实体之间的关系可以分为产品-操作型关系、产品-修饰型关系。则将目标文本“删除的微信好友怎么找回”中的文本片段“删除”、“的”“微信”、“好友”、“怎么”和“找回”与知识图谱中实体对应的文本片段进行匹配,可以确定该目标文本中的候选文本片段包括“删除”“微信”、“好友”、以及“找回”。
S504,对N个文本片段进行信息消歧得到M个文本片段。
具体实现中,可以先识别每个候选文本片段的语义信息,再按照最长最大匹配等方法对语义重叠的文本片段进行筛选,从而得到M个文本片段。通过将对语义重叠的文本片段进行筛选可以消除冗余信息、提高文本解析效率和准确率。
例如:候选文本片段包括“黄苹果公司”、“上市”、“器械”、“医疗”以及“黄苹果科技有限公司”,则可以确定“黄苹果公司”和“黄苹果科技有限公司”的语义信息存在重叠。则可以按照最长最大匹配原则将“黄苹果公司”删除,最终得到“上市”、“器械”、“医疗”以及“黄苹果科技有限公司”4个文本片段。
S505,根据目标知识图谱,确定M个文本片段之间的上下文关系得到关系候选集。
具体实现中,M个文本片段之间的上下文关系可以包括M个文本片段对应的M个实体在目标知识图谱中已有的实体关系,还可以包括目标知识图谱之外的动态实体关系。具体包括以下几个步骤:
(1)可以确定M个文本片段中的第x个文本片段和第y个文本片段之间的匹配信息,该匹配信息可以包括文本类型、词性以及文本片段在目标文本中的位置信息中的至少一项。其中,x和y可以为1,2,…,M,且x和y不相等。文本片段位置信息可以是文本片段在目标文本中相对于句首的相对位置,也可以是两个文本片段之间的位置距离。文本类型可以是文本片段对应的实体在目标知识图谱中的实体的类型,如产品型、操作型。
例如:在目标文本“删除/的/微信/好友/怎么/找回”中,将句首“删除”的位置确定为1,则文本片段“微信”和“找回”相对句首的位置分别为3和6。此外,文本片段间的位置距离可以为间隔的单词的个数,则“微信”和找回”之间的位置距离为6-3-1=2。
(2)根据目标知识图谱和匹配信息,确定第x个文本片段和第y个文本片段之间是否存在第一上下文关系,第一上下文关系可以是指第x个文本片段和第y个文本片段对应的实体在目标知识图谱中已有的实体关系。其中,可以先根据匹配信息初步确定第x个文本片段和第y个文本片段是否存在第一上下文关系。例如,一般情况下,处于句首和处于句尾的实体之间不存在关系、两个词性均为动词的实体之间也不存在关系、以及两个操作型实体之间也不存在关系。若根据匹配信息,确定第x个文本片段和第y个文本片段之间存在第一上下文关系,则接着根据目标知识图谱进一步确定第x个文本片段和第y个文本片段是否存在第一上下文关系以及存在何种类型的第一上下文关系,若存在,则将第x个文本片段和第y个文本片段之间的第一上下文关系存入关系候选集R。其中。通过匹配信息的初步筛选可以初步过滤掉不可能存在关系的文本片段(实体)组合,提高了后续根据目标知识图谱挖掘M个文本片段,即M个实体之间所有可能的关系的效率。
例如:微信客服类的目标文本包括“微信”、“好友”、“找回”以及“删除”4个文本片段。经过词性、文本类型和位置信息确定“删除”和“找回”之间不存在关系。则接着根据如图4所示的知识图谱,确定其他文本片段之间的关系,其中,将4个文本片段和知识图谱中每个实体对应的文本片段进行匹配得到:“微信”-“删除”、“好友”-“删除”、“微信”-“找回”和“好友”-“找回”之间分别存在产品-操作型关系,以及“微信”-“好友”之间存在产品-修饰型关系。从而得到关系候选集R={“微信”-“删除”,“微信”-“找回”,“好友”-“删除”,“好友”-“找回”,“微信”-“好友”}。
(3)确定M个文本片段之间的第二上下文关系,并将第二文本片段关系存入关系候选集R。其中,第二上下文关系可以M个文本片段对应的M个实体之间为动态实体关系,动态实体关系是指知识图谱中某些特定类型的两个实体之间可能存在的弱逻辑联系。在知识不断更新和扩展的情况下,通过引入动态关系可以弥补静态的知识图谱难以覆盖所有知识的缺陷、进一步增加了上下文关系,即实体关系挖掘的深度和广度。例如,在医疗领域中,疾病种类以及每种疾病的症状多种多样,知识图谱难以囊括所有的疾病和以及每种疾病的所有症状。
例如:如图2所示,知识图谱中包括的疾病-症状型关系包括:“感冒”-“咽痛”和“感冒”-“咳嗽”。若目标文本的包括“感冒”、“鼻塞”、“咽痛”以及“咳嗽”4个实体,则根据知识图谱无法确定“感冒”和“鼻塞”之间的疾病-症状关系。但是在进行动态关系挖掘的时候,确定“感冒”为疾病实体、“鼻塞”为症状实体,从而确定“感冒”-“鼻塞”为存在疾病-症状型关系。需要说明的是,知识图谱通常可以囊括对应知识领域的大部分实体,尤其是常见实体。如,针对感冒这一疾病的知识图谱通常可以包括“鼻塞”、“咽痛”、“咳嗽”、“头痛”等常见症状,本例中将“鼻塞”排除在知识图谱之外,仅仅是为了说明动态关系的挖掘过程。
S506,对关系候选集中的每种候选关系进行关系消歧处理,得到目标上下文关系。
具体实现中,可以首先获取目标文本对应的关系消歧信息,关系消歧信息可以包括预设的逻辑推理规则、词权重、目标文本的语言模型特征中的至少一项;接着根据关系消歧信息,从关系候选集中选择目标上下文关系,即对关系候选集R中的候选关系进行的筛选。
其中,根据关系消歧信息,从所述关系候选集中选择目标上下文关系的方法包括但不限于以下三种:
第一种方法:基于规则的关系消歧法
具体地,针对每种候选关系,可以首先获取该候选关系对应的两个文本片段在目标文本中的词权重。其中,可以但不限于从目标文本的分词信息中获取所需的词权重;接着可以将两个文本片段的词权重之和作为该候选关系的置信度。然后将置信度大于预设阈值的候选关系确定为目标上下文关系,其中,置信度和预设阈值可以为0.8、0.9、0.4等任意值。
第二种方法:基于知识推理的关系消歧法
具体地,可以根据目标知识图谱进行一系列的知识推理,以便准确地理解上下文关系。其中,可以预设一种或多种逻辑推理规则,如修饰逻辑推理规则、上下位逻辑推理规则和同义逻辑推理规则等等,并且针对不同的主题类型预设的推理逻辑可以相同也可以不同。然后确定关系候选集中的每种候选关系是否符合预设的逻辑推理规则,并将符合逻辑推理规则的候选关系确定为目标上下文关系。
例如:关系候选集合为R={“微信”-“删除”,“微信”-“找回”,“好友”-“删除”,“好友”-“找回”,“微信”-“好友”}。其中,根据如图4所示的知识图谱可知“微信”-“好友”之间存在产品-修饰型关系,说明“好友”是微信的一种属性。其中,修饰逻辑推理规则规定操作型实体作用于产品属性的概率大于作用于产品的概率。因此,“找回”和“删除”这个操作更可能是作用于“好友”而不是“微信”,从而确定“好友”-“找回”和“好友”-“删除”为目标实体关系。
第三种方法:基于神经网络模型的关系消歧法
以下以求取关系候选集R中的第k种候选关系的置信度为例对基于神经网络模型的关系消歧法进行说明,其中,k为不大于候选关系集R的基数的整数,候选关系集R的基数为该集合中所包括的集合元素的总数。其中,基于神经网络模型的关系消歧法除了需要已经确定作为关系消歧信息的目标文本的语言模型特征外,还需要根据第k种候选关系所确定的其他特征。该方法的具体实现步骤包括:
(1)获取目标文本的语言模型特征,如n-gram特征,具体可以是n-gram特征中的unigram特征、bigram特征等等;
(2)获取目标文本中的多个单词相对第k种候选关系对应的两个文本片段的位置特征,其中,可以获取多个单词中的每个单词相对所述两个文本片段中预设类型的文本片段的位置特征。其中,预设类型可以根据目标文本对应的主题类型进行确定。例如,在微信服务类主题中,可以将预设类型确定为操作型。
例如:目标文本为“删除的微信好友怎么找回”,该目标文本所包括的单词有“删除”、“的”、“微信”、“好友”、“怎么”以及“找回”。针对候选关系为“星标好友”-“找回”,其中,“找回”为操作型实体。由于“怎么”在“找回”的前一位,则可以将-1作为“怎么”的位置特征。类似的,可以得到“删除”、“的”、“微信”、“星标好友”、以及“找回”相对于“找回”的位置特征分别为-5、-4、-3、-2和0。同理,针对候选关系为“好友”-“删除”,其中,“删除”为操作型实体。由于“怎么”在“删除”的后面4位,则可以将4作为“怎么”的位置特征。又如,针对候选关系为“好友”-“删除”,可以得到“删除”、“的”、“微信”、“好友”、以及“找回”相对于操作型实体“删除”的位置特征分别为0、1、2、3和5。
表2.位置特征
候选关系 实体 | 好友-删除 | 好友-找回 |
删除 | 0 | -5 |
的 | 1 | -4 |
微信 | 2 | -3 |
好友 | 3 | -2 |
怎么 | 4 | -1 |
找回 | 5 | 0 |
(3)获取第k种候选关系与关系候选集R中的其他候选关系的冲突特征。例如,第k种候选关系为“好友”-“找回”,候选关系集R中还包括“微信”-“找回”,则“好友”-“找回”和微信”-“找回”为共有操作“找回”下的冲突关系,可以将冲突特征确定为“好友”-“微信”。
(4)将语言模型特征、位置特征、冲突特征、第k种候选关系以及关系候选集R输入预设的置信度评估模型,得到第k种候选关系的置信度。其中,在置信度评估之前,可以搜集训练样本,并将训练样本输入待训练模型进行训练,以便得到置信度评估模型。其中,待训练模型可以但不限于为神经网络模型。训练样本可以已知置信度的候选关系、该候选关系所属的关系候选集、关系候选集对应的目标文本的语言模式特征、该候选关系对应的位置特征和冲突特征。
例如:置信度评估模型为训练好的神经网络模型,该模型可以包括池化(pooling)层/全连接层、隐层以及softmax分类层。如图6所示,可以将语言模型特征、位置特征、冲突特征、第k种候选关系以及关系候选集R分别输入一层pooling层/全连接层得到各个特征对应的第一层隐层,接着再将所有第一层隐层中的信息输入一层pooling层/全连接层中进行处理得到第二层隐层,然后将第二隐层中的信息输入softmax分类层,则softmax分类层将输出第k种候选关系的置信度。
需要说明的是,为了提高文本解析的准确性,可以将以上三种方法结合起来使用。例如,可以利用基于规则的关系消歧法确定第k种候选关系的一个置信度,以及利用基于神经网络模型的关系消歧法确定第k种候选关系的另一个置信度,然后计算一个置信度和另一个置信度的加权和作为第k种候选关系的最终置信度,其中,一个置信度和另一个置信度对应的权重可以根据实应用场景进行设置。比如,将一个置信度的权重设置为0.1以及将另一个置信度的权重设置为0.9。
又如,首先利用基于知识推理的关系消歧法确定第k种候选关系是否符合预设的逻辑推理规则。若符合,则进一步利用基于规则的关系消歧法和/或基于神经网络模型的关系消歧法来确定第k种候选的置信度。
通过关系消歧,可以将候选关系集R中相对目标文本而言不正确的上下文关系去除,从而可以提高目标文本解析的效率和准确性。
例如:针对问题文本“删除的微信好友怎么找回”,可以确定关系候选集R={“微信”-“删除”,“微信”-“找回”,“好友”-“删除”,“好友”-“找回”,“微信”-“好友”}。然而,R中只有“好友”-“找回”和“微信”-“好友”表达了该目标文本的正确语义,因此若不进行关系消歧处理,不仅会降低问题文本的语义解析的准确度,而且会导致无效的答案搜索,浪费系统运行资源。
S507,根据目标上下文关系,确定目标文本的语义。
例如:如表3所示,用户输入的问题文本为“删除的微信好友怎么找回”,该目标文本对应的关系候选集R={“微信”-“删除”,“好友”-“删除”,“微信”-“找回”,“好友”-“找回”}。
表3.候选关系与置信度
候选关系 | 置信度 |
“微信”-“删除” | 0.15 |
“好友”-“删除” | 0.29 |
“微信”-“找回” | 0.16 |
“好友”-“找回” | 0.91 |
“微信”-“好友” | 0.85 |
其中,根据关系消歧信息,可以确定R中的候选关系的置信度别为0.15、0.29、0.16、0.91、0.85。则因为0.91、0.85大于预设阈值0.8,所以将“好友”-“找回”和“微信”-“好友”作为目标上下文关系,其中,“好友”-“找回”和“微信”-“好友”分别输入产品-操作关系和产品-修饰,则首先根据“好友”-“找回”,确定该目标文本的核心语义为找回好友,然后根据“微信”-“好友”,确定该目标文本的语义为找回微信好友。
需要说明的是,在对目标文本进行分词得到的多个单词中除了被确定为所需的文本片段(实体)的单词,还包括上下文无关词。例如,针对微信服务类目标文本“不/小心/删除/微信/星标好友/怎么/找回”,“不/小心”为该目标文本中的上下文无关词。其中,可以针对每种主题类型预设一个上下文无关词集合,然后将多个单词中除了被确定为文本片段的单词的其他单词与对应的上下文无关词集合中的每个词进行匹配,若匹配到相同或相近的词,则确定该单词为上下文无关词,还可以将无法与知识图谱中的实体对应的文本片段相匹配的单词确定为上下文无关词。
可选的,在根据目标上下文关系之间的关系确定目标文本的语义之后,即得到目标文本的语义解析结果之后,可以首先确定上下文无关词的数量;并且当上下文无关词的数量大于第一阈值时,按照第一下调比例调整目标上下文关系的置信度,其中,第一阈值可以为预设的值也可以为根据目标文本的长度实时确定的值,如2、3、4等等。第一下调比例可以为预先设置的比例也可以是随上下文无关词的数量实时变化的比例,如20%、10%等等;然后根据目标上下文关系的调整后的置信度确定语义解析结果的置信度,其中,可以先将对应的关系候选集中将目标上下文关系的置信度归一化,再对归一化后的置信度进行调整,最后将所有目标上下文关系的调整后的置信度的和作为目标文本的语义解析结果的置信度。其中,当后续其他操作需要使用目标文本的语义解析结果时,可以根据该语义解析结果的置信度,确定该语义解析结果的权重、信赖度等等。例如,在智能问答系统中,用户输入的问题文本的语义解析结果的置信度将对问题与答案的匹配结果产生影响。
例如:目标文本的长度为6,即目标文本中包括6个单词,则可以确定第一阈值为6/2-1=2。若上下文无关词的数量为3,则确定上下文无关词的数量超过第一阈值2。其中,如表3所示,目标文本对应的两种目标上下文关系的置信度0.88和0.91,以及目标上下文关系所属的关系候选集中的其他关系的得分依次为0.15、0.59和0.36。则首先对0.85和0.91分别进行归一化得到0.85/(0.85+0.91+ 0.15+0.29+0.16)=0.360、0.91/(0.85+0.91+0.15+0.29+0.16=0.386,然后将0.360和0.386分别按照预设的第一下调比例10%进行下调,得到调整后的目标上下文关系的置信度为0.360*(1-10%)=0.324、0.386*(1-10%)=0.347,从而得到根据目标上下文关系之间的关系所确定目标文本的语义的置信度为0.296+0.307=0.671。
可选的,可以首先从目标文本的分词信息中获取每个上下文无关词的词权重;接着当上下文无关词的词权重大于第二阈值时,按照第二下调比例调整目标上下文关系的置信度,其中,第二阈值可以为0.5、0.6等任意值,第二下调比例可以为预先设置的比例也可以是随上下文无关词的词权重与第二阈值之间的差值实时变化的比例,如20%、10%等等;然后根据调整后的目标文本片段关系的置信度确定解析得到的目标文本语义的置信度,其中,可以先将目标上下文关系的置信度在对应的关系候选集中进行归一化,再将所有目标关系上下文的调整后的置信度的和作为语义解析结果的置信度。
当上下文无关的词的数量过多或者上下文无关词的权重较大时,目标文本的语义解析结果的置信度将受到影响。例如:在目标文本“删除/微信/公众号/小助手”中,对应的微信客服类上下文无关词集合中包括“助手”,因此可以确定目标文本中的“小助手”为上下文无关词,然而“小助手”在目标文本中为关键词,若将其忽略,将导致目标文本的语义解析结果不准确。因此,结合上下文无关词来确定目标文本的语义解析结果的整体置信度,可以提高整体置信度的准确性,保障依赖于该语义解析结果的业务功能的执行结果的可靠性。
在本发明实施例中,当检测到目标文本时,首先确定目标文本的主题类型;接着据主题类型,从预设的多个知识图谱中查找目标知识图谱;其次根据目标知识图谱,确定目标文本中N个候选文本片段,并对N个文本片段进行信息消歧得到M个文本片段,然后根据目标知识图谱,确定M个文本片段之间的上下文关系得到关系候选集,并对关系候选集中的候选关系进行关系消歧处理得到目标上下文关系;最后根据目标上下文关系,确定目标文本的语义。通过对目标文本中的文本片段、以及文本片段之间的关系进行消歧,可以进一步提高文本语义解析结果的准确性和置信度。
上述详细阐述了本发明实施例的方法,下面提供了本发明实施例的相关设备。
请参见图7,图7是本发明实施例提供的一种文本解析装置的结构示意图,该文本解析装置可以包括:
确定模块701,用于当检测到目标文本时,确定所述目标文本的主题类型。
具体实现中,可以首先确定目标文本的关键词;接着根据关键词确定目标文本的主题类型。其中,可以针对每种主题类型预设一个或多个关键词,然后将目标文本的关键词与预设关键词进行匹配,并将与目标文本的关键词相匹配的预设关键词所对应的主题类型确定为目标文本的主题类型。其中,目标文本可以是用户输入问题文本,也可以是任意文档的标题。主题类型可以包括但不限于医疗类、美妆类以及客服类。
在另一种可能的实现中,为了提高匹配效率,可以直接将预设关键词与目标文本进行匹配;然后将与目标文本匹配的预设关键词对应的主题类型确定为目标文本的主题类型。
查找模块702,用于根据所述主题类型,从预设的多个知识图谱中查找目标知识图谱。
具体实现中,每个知识图谱对应一种主题类型,因此可以将目标文本的主题类型与预设的每个知识图谱对应的主题类型进行匹配,将与之相匹配的主题类型对应的知识图谱确定为目标知识图谱。其中,目标知识图谱中包括R个文本片段以及R个文本片段之间的关系,R为大于1的整数,R个文本片段中的每个片段对应知识图谱中的一个实体。
需要说明的是,可以根据实际应用场景,确定多种主题类型,然后针对每种主题类型,定制一个知识图谱,还可以定期对知识图谱进行更新。其中,每种主题类型对应的知识图谱所包括的实体的数量、实体之间的关系以及所包括实体类型可以不同。
解析模块703,用于根据所述目标知识图谱,确定所述目标文本中的M个文本片段、以及所述M个文本片段之间的关系。
具体实现中,首先可以利用jieba分词等分词技术目标文本进行分词处理,得到目标文本的分词信息,其中,分词信息可以包括目标文本中的多个单词,还可以包括多个单词中每个单词的词性和词权重。接着将目标文本包含的多个单词与目标知识图谱中的实体对应的每个文本片段进行匹配,以便确定M个文本片段以及M个文本片段之间的上下文关系,其中,M个文本片段之间的上下文关系可以是指M个文本片段对应的实体在目标知识图谱中的实体关系。
可选的,解析模块703还可以根据知识图谱,对候选文本片段进行归一化。例如,可以根据如图4所示的知识图谱,将“删掉”归一化为“删除”。
解析模块703,还用于根据所述M个文本片段之间的上下文关系,确定所述目标文本的语义。
具体实现中,可以根据M个文本片段之间所存在的上下文关系,即M个文本片段对应的实体之间的实体关系、以及该实体关系的的类型,如产品-修饰型、产品-操作型,确定目标文本的语义。
可选的,解析模块703,还用于:
首先,根据目标知识图谱,确定目标文本中N个候选文本片段。其中,可以首先对目标文本进行分词处理,得到目标文本的分词信息,分词信息可以包括目标文本所包含的所有单词,还可以包括每个单词的词性和词权重。接着,根据目标知识图谱和分词得到的多个单词,确定N个候选文本片段,其中,N为大于1的整数。其中,可以但不限于使用双字典匹配的方法将每个单词与目标知识图谱中的每个文本片段进行匹配,若某个单词与目标知识图谱中的某个实体对应的文本片段的内容相匹配,则将该单词确定为候选文本片段。
接着,对N个文本片段进行信息消歧得到M个文本片段。其中,可以先识别每个候选文本片段的语义信息,再按照最长最大匹配等方法对语义重叠的文本片段进行筛选,从而得到M个文本片段。通过将对语义重叠的文本片段进行筛选可以消除冗余信息、提高文本解析效率和准确率。
然后,根据目标知识图谱,确定M个文本片段之间的上下文关系得到关系候选集。M个文本片段之间的关系可以包括M个文本片段对应的M个实体在目标知识图谱中已有的实体关系,还可以包括目标知识图谱之外的动态实体关系。具体包括以下几个步骤:
(1)可以确定M个文本片段中的第x个文本片段和第y个文本片段之间的匹配信息,该匹配信息可以包括文本类型、词性以及文本片段在目标文本中的位置信息中的至少一项。其中,x和y可以为1,2,…,M,且x和y不相等。文本片段的位置信息可以是文本片段在目标文本中相对于句首的相对位置,也可以是两个文本片段之间的位置距离。文本类型可以是文本片段对应的实体在目标知识图谱中的实体的类型,如产品型、操作型。
(2)根据目标知识图谱和匹配信息,确定第x个文本片段和第y个文本片段之间是否存在第一上下文关系,第一上下文关系可以是指第x个文本片段和第y个文本片段对应的实体在目标知识图谱中已有的实体关系。其中,可以先根据匹配信息初步确定第x个文本片段和第y个文本片段是否存在第一上下文关系。例如,一般情况下,处于句首和处于句尾的实体之间不存在关系、两个词性均为动词的实体之间也不存在关系、以及两个操作型实体之间也不存在关系。若根据匹配信息,确定第x个文本片段和第y个文本片段之间存在第一上下文关系,则接着根据目标知识图谱进一步确定是否存在第一上下文关系以及存在何种类型的第一上下文关系,若存在,则可以将第x个文本片段和第y个文本片段之间的第一上下文关系存入关系候选集R中。通过匹配信息的初步筛选可以过滤掉不可能存在关系的文本片段(实体)组合,提高了后续根据目标知识图谱挖掘M个文本片段之间所有可能的关系的效率。
(3)确定M个文本片段之间的第二上下文关系,并将第二上下文关系存入关系候选集R。其中,第二上下文关系可以为M个文本片段对应的M个实体之间的动态实体关系,动态实体关系是指知识图谱中某些特定类型的两个实体之间可能存在的弱逻辑联系。在知识不断更新和扩展的情况下,通过引入动态实体关系可以弥补静态的知识图谱难以覆盖所有知识的缺陷、进一步增加了上下文关系,即实体关系挖掘的深度和广度。例如,在医疗领域中,疾病种类以及每种疾病的症状多种多样,知识图谱难以囊括所有的疾病和以及每种疾病的所有症状。
最后,对关系候选集中的每种候选关系进行关系消歧处理,得到目标上下文关系。可以首先获取目标文本对应的关系消歧信息,关系消歧信息可以包括预设的逻辑推理规则、词权重、目标文本的语言模型特征中的至少一项;接着根据关系消歧信息,从关系候选集中选择目标上下文关系,即对关系候选集R中的候选关系进行的筛选。
其中,根据关系消歧信息,从所述关系候选集中选择目标上下文关系的方法包括但不限于以下三种:
第一种方法:基于规则的关系消歧法
具体地,针对每种候选关系,可以首先获取该候选关系对应的两个文本片段在目标文本中的词权重。其中,可以但不限于从目标文本的分词信息中获取所需的词权重;接着可以但不限于将两个文本片段的词权重之和作为该候选关系的置信度。然后将置信度大于预设阈值的候选关系确定为目标上下文关系,其中,置信度和第一预设阈值可以为0.8、0.9、0.4等任意值。
第二种方法:基于知识推理的关系消歧法
具体地,可以根据目标知识图谱进行一系列的知识推理,以便准确地理解上下文关系。其中,可以预设一种或多种逻辑推理规则,如修饰逻辑推理规则、上下位逻辑推理规则和同义逻辑推理规则等等,并且针对不同的主题类型预设的推理逻辑可以相同也可以不同。然后确定关系候选集中的每种候选关系是否符合预设的逻辑推理规则,并将符合逻辑推理规则的候选关系确定为目标上下文关系。
第三种方法:基于神经网络模型的关系消歧法
以下以求取关系候选集R中的第k种候选关系的置信度为例对基于神经网络模型的关系消歧法进行说明,其中,k为不大于候选关系集R的基数的整数,候选关系集R的基数为该集合中所包括的集合元素的总数。其中,基于神经网络模型的关系消歧法除了需要已经确定作为关系消歧信息的目标文本的语言模型特征外,还需要根据第k种候选关系所确定的其他特征。该方法的具体实现步骤包括:
(1)获取目标文本的语言模型特征,如n-gram特征,具体可以是n-gram特征中的unigram特征、bigram特征等等;
(2)获取目标文本中的多个单词相对第k种候选关系对应的两个文本片段的位置特征,其中,可以获取多个单词中的每个单词相对所述两个文本片段中预设类型的文本片段的位置特征。其中,预设类型可以根据目标文本对应的主题类型进行确定。例如,在微信服务类主题中,可以将预设类型确定为操作型。
(3)获取第k种候选关系与关系候选集R中的其他候选关系的冲突特征。例如,第k种候选关系为“好友”-“找回”,候选关系集R中还包括“微信”-“找回”,则“好友”-“找回”和微信”-“找回”为共有操作“找回”下的冲突关系,可以将冲突特征确定为“好友”-“微信”。
(4)将语言模型特征、位置特征、冲突特征、第k种候选关系以及关系候选集R输入预设的置信度评估模型,得到第k种候选关系的置信度。其中,在置信度评估之前,可以搜集训练样本,并将训练样本输入待训练模型进行训练,以便得到置信度评估模型。其中,待训练模型可以但不限于为神经网络模型。训练样本可以已知置信度的候选关系、该候选关系所属的关系候选集、关系候选集对应的目标文本的语言模式特征、该候选关系对应的位置特征和冲突特征。
可选的,解析模块703,还用于根据所述目标上下文关系,确定目标文本的语义。
需要说明的是,在对目标文本进行分词得到的多个单词中除了被确定为所需的文本片段的单词,还包括上下文无关词。其中,解析模块703,还可以针对每种主题类型预设一个上下文无关词集合,然后将多个单词中除了被确定为文本片段的单词的其他单词与对应的上下文无关词集合中的每个词进行匹配,若匹配到相同或相近的词,则确定该单词为上下文无关词,还可以将无法与知识图谱中的实体对应的文本片段内容相匹配的单词确定为上下文无关词。
可选的,解析模块703,还用于首先确定上下文无关词的数量;并且当上下文无关词的数量大于第一阈值时,按照第一下调比例调整目标上下文关系的置信度,其中,第一阈值可以为预设的值也可以为根据目标文本的长度实时确定的值,如2、3、4等等。第一下调比例可以为预先设置的比例也可以是随上下文无关词的数量实时变化的比例,如20%、10%等等;然后根据目标上下文关系的调整后的置信度确定语义解析结果的置信度,其中,可以将对应的关系候选集中将目标上下文关系的置信度归一化,再对归一化的置信度进行调整,最后将所有目标上下文关系的调整后的置信度的和作为目标文本的语义解析结果的置信度。其中,当后续其他操作需要使用目标文本的语义解析结果时,可以根据该语义解析结果的置信度,确定该语义解析结果的权重、信赖度等等。
可选的,可以首先从目标文本的分词信息中获取每个上下文无关词的词权重;接着当上下文无关词的词权重大于第二阈值时,按照第二下调比例调整目标上下文关系的置信度,其中,第二阈值可以为0.5、0.6等任意值,第二下调比例可以为预先设置的比例也可以是随上下文无关词词权重与第二阈值之间的差值实时变化的比例,如20%、10%等等;然后根据调整后的目标上下文关系的置信度确定解析得到的目标文本语义的置信度,其中,可以先将目标上下文关系的置信度在对应的关系候选集中进行归一化,再将所有目标关系上下文的调整后的置信度的和作为语义解析结果的置信度。
在本发明实施例中,首先当检测到目标文本时,确定目标文本的主题类型;接着根据所述主题类型,从预设的多个知识图谱中查找目标知识图谱,其中,目标知识图谱包括所述主题类型对应的R个文本片段和R个文本片段之间的上下文关系;然后根据目标知识图谱,确定目标文本中的M个文本片段、以及M个文本片段之间的关系;最后根据M个文本片段之间的上下文关系,确定所述目标文本的语义。可以提高文本语义解析的精确性,从而提高智能问答系统中问题与答案的匹配效率和准确度。
请参见图8,图8是本发明实施例提供的一种文本解析设备的结构示意图。如图所示,该文本解析设备可以包括:至少一个处理器801,至少一个通信接口802,至少一个存储器803和至少一个通信总线804。
其中,处理器801可以是中央处理器单元,通用处理器,数字信号处理器,专用集成电路,现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理器和微处理器的组合等等。通信总线804可以是外设部件互连标准PCI总线或扩展工业标准结构EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信总线804用于实现这些组件之间的连接通信。其中,本发明实施例中设备的通信接口802用于与其他节点设备进行信令或数据的通信。存储器803可以包括易失性存储器,例如非挥发性动态随机存取内存(Nonvolatile Random Access Memory,NVRAM)、相变化随机存取内存(PhaseChange RAM,PRAM)、磁阻式随机存取内存(Magetoresistive RAM,MRAM)等,还可以包括非易失性存储器,例如至少一个磁盘存储器件、电子可擦除可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、闪存器件,例如反或闪存(NORflash memory)或是反及闪存(NAND flash memory)、半导体器件,例如固态硬盘(SolidState Disk,SSD)等。存储器803可选的还可以是至少一个位于远离前述处理器801的存储装置。存储器803中存储一组程序代码,且处理器801执行存储器803中的程序:
当检测到目标文本时,确定所述目标文本的主题类型;
根据所述主题类型,从预设的多个知识图谱中查找目标知识图谱,所述目标知识图谱包括所述主题类型对应的R个文本片段之间的上下文关系,所述R为大于1整数;
根据所述目标知识图谱,确定所述目标文本中的M个文本片段、以及所述M个文本片段之间的上下文关系,所述M为大于1且不大于R的整数;
根据所述M个实体之间的上下文关系,确定所述目标文本的语义。
其中,处理器801还用于执行如下操作步骤:
对所述目标文本进行分词处理得到所述目标文本的分词信息,所述分词信息包括所述目标文本中的多个单词;
根据所述目标知识图谱和所述多个单词,确定N个候选文本片段,所述N为不小于M的整数;
确定所述N个候选文本片段中每个候选文本片段的语义信息;
根据所述语义信息,从所述N个候选文本片段中选择所述M个文本片段。
其中,所述上下文关系包括第一上下文关系;
处理器801还用于执行如下操作步骤:
确定所述M个文本片段中的第x个文本片段和第y个文本片段之间的匹配信息,所述匹配信息包括文本类型、词性以及位置信息中的至少一项,其中,所述x为不大于M的整数,所述y为不大于M且不等于x的整数;
根据所述目标知识图谱和所述匹配信息,确定所述第x个文本片段和所述第y个文本片段之间是否存在第一上下文关系;
当所述第x个文本片段和所述第y个文本片段之间存在第一上下文关系时,将所述第一上下文关系存入关系候选集。
其中,所述上下文关系包括第二上下文关系;
处理器801还用于执行如下操作步骤:
确定所述第x个文本片段的第一文本类型和所述第y个文本片段的第二文本类型;
根据所述第一文本类型和所述第二文本类型,确定所述第x个文本片段和所述第y个文本片段之间是否存在所述第二上下文关系;
当所述第x个文本片段和所述第y个文本片段之间存在所述第二上下文关系时,将所述第二上下文关系存入所述关系候选集。
其中,处理器801还用于执行如下操作步骤:
所述根据所述M个文本片段之间的关系,确定所述目标文本的语义包括:
获取所述目标文本对应的关系消歧信息,所述关系消歧信息包括预设的逻辑推理规则、词权重、所述目标文本的语言模型特征中的至少一项;
根据所述关系消歧信息,从所述关系候选集中选择目标上下文关系;
根据所述目标上下文关系,确定所述目标文本的语义。
其中,处理器801还用于执行如下操作步骤:
所述根据所述关系消歧信息,从所述关系候选集中选择目标文本片段关系包括:
确定所述关系候选集中的每种候选关系是否符合所述逻辑推理规则,所述逻辑推理规则包括修饰逻辑推理规则、上下位逻辑推理规则和同义逻辑推理规则中的至少一种;
将符合所述逻辑推理规则的候选关系确定为所述目标上下文关系。
其中,处理器801还用于执行如下操作步骤:
所述根据所述关系消歧信息,从所述关系候选集中选择目标上下文关系包括:
根据所述关系消歧信息,确定所述关系候选集中的每种候选关系的第一置信度;
根据所述第一置信度,确定所述目标上下文关系。
其中,处理器801还用于执行如下操作步骤:
所述根据所述关系消歧信息,确定所述关系候选集中的每种候选关系的第一置信度包括:
确定所述每种候选关系对应的两个文本片段在所述目标文本中的词权重;
将所述两个文本片段的词权重之和作为所述每种候选关系的第一置信度。
其中,处理器801还用于执行如下操作步骤:
确定所述M个文本片段中的每个文本片段相对所述关系候选集中的第k种候选关系对应的文本片段的位置特征、以及所述第k种候选关系与所述关系候选集中的其他候选关系的冲突特征,其中,所述k为不大于所述关系候选集的基数的整数;
将所述语言模型特征、所述位置特征、所述冲突特征、所述第k种候选关系以及所述关系候选集输入预设的置信度评估模型,确定所述第k种候选关系的第一置信度。
其中,所述目标文本中包括上下文无关词;
处理器801还用于执行如下操作步骤:
确定所述上下文无关词的数量;
当所述上下文无关词的数量超过第一阈值时,按照第一下调比例调整所述目标上下文关系的第一置信度;
根据调整后的所述第一置信度,确定所述语义的第二置信度。
其中,处理器801还用于执行如下操作步骤:
确定所述上下文无关词的词权重;
当所述上下文无关词的词权重超过第二阈值时,按照第二下调比例调整所述目标上下文关系的第一置信度;
根据调整后的所述第一置信度,确定所述语义的第二置信度。
其中,处理器801还用于执行如下操作步骤:
确定所述目标文本中的关键词;根据所述关键词,确定所述主题类型。
进一步的,处理器还可以与存储器和通信接口相配合,执行上述发明实施例中文本解析装置的操作。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk (SSD))等。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (15)
1.一种文本解析方法,其特征在于,所述方法包括:
当检测到目标文本时,确定所述目标文本的主题类型;
根据所述主题类型,从预设的多个知识图谱中查找目标知识图谱,所述目标知识图谱包括所述主题类型对应的R个文本片段之间的上下文关系,所述R为大于1整数;
根据所述目标知识图谱,确定所述目标文本中的M个文本片段、以及所述M个文本片段之间的上下文关系;每个文本片段对应一个实体,所述M个文本片段之间的上下文关系包括所述M个文本片段对应的实体在所述目标知识图谱中的实体关系;所述M为大于1且不大于R的整数;
获取所述目标文本对应的关系消歧信息,所述关系消歧信息包括预设的逻辑推理规则、词权重、所述目标文本的语言模型特征中的至少一项;
基于所述关系消歧信息,从所述M个文本片段之间的上下文关系中选择目标上下文关系;
根据所述目标上下文关系,确定所述目标文本的语义。
2.如权利要求1所述的方法,其特征在于,所述根据所述目标知识图谱,确定所述目标文本中的M个文本片段包括:
对所述目标文本进行分词处理得到所述目标文本的分词信息,所述分词信息包括所述目标文本中的多个单词;
根据所述目标知识图谱和所述多个单词,确定N个候选文本片段,所述N为不小于M的整数;
确定所述N个候选文本片段中每个候选文本片段的语义信息;
根据所述语义信息,从所述N个候选文本片段中选择所述M个文本片段。
3.如权利要求1所述的方法,其特征在于,所述上下文关系包括第一上下文关系;
所述根据所述目标知识图谱,确定所述M个文本片段之间的上下文关系包括:
确定所述M个文本片段中的第x个文本片段和第y个文本片段之间的匹配信息,所述匹配信息包括文本类型、词性以及位置信息中的至少一项,其中,所述x为不大于M的整数,所述y为不大于M且不等于x的整数;
根据所述目标知识图谱和所述匹配信息,确定所述第x个文本片段和所述第y个文本片段之间是否存在所述第一上下文关系;
当所述第x个文本片段和所述第y个文本片段之间存在所述第一上下文关系时,将所述第一上下文关系存入关系候选集。
4.如权利要求3所述的方法,其特征在于,所述上下文关系包括第二上下文关系;
所述方法还包括:
确定所述第x个文本片段的第一文本类型和所述第y个文本片段的第二文本类型;
根据所述第一文本类型和所述第二文本类型,确定所述第x个文本片段和所述第y个文本片段之间是否存在所述第二上下文关系;
当所述第x个文本片段和所述第y个文本片段之间存在所述第二上下文关系时,将所述第二上下文关系存入所述关系候选集。
5.如权利要求4所述的方法,其特征在于,所述基于所述关系消歧信息,从所述M个文本片段之间的上下文关系中选择目标上下文关系包括:
根据所述关系消歧信息,从所述关系候选集中选择目标上下文关系。
6.如权利要求5所述的方法,其特征在于,所述根据所述关系消歧信息,从所述关系候选集中选择目标上下文关系包括:
确定所述关系候选集中的每种候选关系是否符合所述逻辑推理规则,所述逻辑推理规则包括修饰逻辑推理规则、上下位逻辑推理规则和同义逻辑推理规则中的至少一种;
将符合所述逻辑推理规则的候选关系确定为所述目标上下文关系。
7.如权利要求5所述的方法,其特征在于,所述根据所述关系消歧信息,从所述关系候选集中选择目标上下文关系包括:
根据所述关系消歧信息,确定所述关系候选集中的每种候选关系的第一置信度;
根据所述第一置信度,确定所述目标上下文关系。
8.如权利要求7所述的方法,其特征在于,所述根据所述关系消歧信息,确定所述关系候选集中的每种候选关系的第一置信度包括:
确定所述每种候选关系对应的两个文本片段在所述目标文本中的词权重;
将所述两个文本片段的词权重之和作为所述每种候选关系的第一置信度。
9.如权利要求7所述的方法,其特征在于,所述根据所述关系消歧信息,确定所述关系候选集中的每种候选关系的第一置信度包括:
确定所述M个文本片段中的每个文本片段相对所述关系候选集中的第k种候选关系对应的文本片段的位置特征、以及所述第k种候选关系与所述关系候选集中的其他候选关系的冲突特征,其中,所述k为不大于所述关系候选集的基数的整数;
将所述语言模型特征、所述位置特征、所述冲突特征、所述第k种候选关系以及所述关系候选集输入预设的置信度评估模型,确定所述第k种候选关系的第一置信度。
10.如权利要求7所述的方法,其特征在于,所述目标文本包括上下文无关词;
所述根据所述目标上下文关系,确定所述目标文本的语义之后,还包括:
确定所述上下文无关词的数量;
当所述上下文无关词的数量超过第一阈值时,按照第一下调比例调整所述目标上下文关系的第一置信度;
根据调整后的所述第一置信度,确定所述语义的第二置信度。
11.如权利要求7所述的方法,其特征在于,所述目标文本包括上下文无关词;
所述根据所述目标上下文关系,确定所述目标文本的语义之后,还包括:
确定所述上下文无关词的词权重;
当所述上下文无关词的词权重超过第二阈值时,按照第二下调比例调整所述目标上下文关系的第一置信度;
根据调整后的所述第一置信度,确定所述语义的第二置信度。
12.如权利要求1-11任一项所述的方法,其特征在于,所述当检测到目标文本时,确定所述目标文本的主题类型包括:
确定所述目标文本中的关键词;根据所述关键词,确定所述主题类型。
13.一种文本解析装置,其特征在于,所述装置包括:
确定模块,用于当检测到目标文本时,确定所述目标文本的主题类型;
查找模块,用于根据所述主题类型,从预设的多个知识图谱中查找目标知识图谱,所述目标知识图谱包括所述主题类型对应的R个文本片段之间的上下文关系,所述R为大于1整数;
解析模块,用于根据所述目标知识图谱,确定所述目标文本中的M个文本片段、以及所述M个文本片段之间的上下文关系,每个文本片段对应一个实体,所述M个文本片段之间的上下文关系包括所述M个文本片段对应的实体在所述目标知识图谱中的实体关系;所述M为大于1且不大于R的整数;
所述解析模块,还用于获取所述目标文本对应的关系消歧信息,所述关系消歧信息包括预设的逻辑推理规则、词权重、所述目标文本的语言模型特征中的至少一项;
以及用于基于所述关系消歧信息,从所述M个文本片段之间的上下文关系中选择目标上下文关系;
以及用于根据所述目标上下文关系,确定所述目标文本的语义。
14.如权利要求13所述的装置,其特征在于,所述解析模块还用于:
对所述目标文本进行分词处理得到所述目标文本的分词信息,所述分词信息包括所述目标文本中的多个单词;
根据所述目标知识图谱和所述多个单词,确定N个候选文本片段,所述N为不小于M的整数;
确定所述N个候选文本片段中每个候选文本片段的语义信息;
根据所述语义信息,从所述N个候选文本片段中选择所述M个文本片段。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1-12任一项所述的文本解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910333278.3A CN110096573B (zh) | 2019-04-22 | 2019-04-22 | 一种文本解析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910333278.3A CN110096573B (zh) | 2019-04-22 | 2019-04-22 | 一种文本解析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110096573A CN110096573A (zh) | 2019-08-06 |
CN110096573B true CN110096573B (zh) | 2022-12-27 |
Family
ID=67445769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910333278.3A Active CN110096573B (zh) | 2019-04-22 | 2019-04-22 | 一种文本解析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110096573B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532399A (zh) * | 2019-08-07 | 2019-12-03 | 广州多益网络股份有限公司 | 面向游戏问答系统的知识图谱更新方法、系统及装置 |
CN110442733A (zh) * | 2019-08-08 | 2019-11-12 | 恒生电子股份有限公司 | 一种主题生成方法、装置和设备及介质 |
CN110928992B (zh) * | 2019-11-21 | 2022-06-10 | 邝俊伟 | 文本搜索方法、装置、服务器及存储介质 |
CN111126610B (zh) * | 2019-12-12 | 2023-12-01 | 科大讯飞股份有限公司 | 题目分析方法、装置、电子设备和存储介质 |
CN111274785B (zh) * | 2020-01-21 | 2023-06-20 | 北京字节跳动网络技术有限公司 | 一种文本纠错方法、装置、设备及介质 |
CN112036150A (zh) * | 2020-07-07 | 2020-12-04 | 远光软件股份有限公司 | 电价政策条款解析方法、存储介质及计算机 |
CN114141384A (zh) * | 2022-01-30 | 2022-03-04 | 北京欧应信息技术有限公司 | 用于检索医学数据的方法、设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280061A (zh) * | 2018-01-17 | 2018-07-13 | 北京百度网讯科技有限公司 | 基于歧义实体词的文本处理方法和装置 |
CN108509420A (zh) * | 2018-03-29 | 2018-09-07 | 赵维平 | 古谱及古文化知识图谱自然语言处理方法 |
CN109062939A (zh) * | 2018-06-20 | 2018-12-21 | 广东外语外贸大学 | 一种面向汉语国际教育的智能导学方法 |
CN109271506A (zh) * | 2018-11-29 | 2019-01-25 | 武汉大学 | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 |
CN109657238A (zh) * | 2018-12-10 | 2019-04-19 | 宁波深擎信息科技有限公司 | 基于知识图谱的上下文识别补全方法、系统、终端及介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10762297B2 (en) * | 2016-08-25 | 2020-09-01 | International Business Machines Corporation | Semantic hierarchical grouping of text fragments |
US11003716B2 (en) * | 2017-01-10 | 2021-05-11 | International Business Machines Corporation | Discovery, characterization, and analysis of interpersonal relationships extracted from unstructured text data |
-
2019
- 2019-04-22 CN CN201910333278.3A patent/CN110096573B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280061A (zh) * | 2018-01-17 | 2018-07-13 | 北京百度网讯科技有限公司 | 基于歧义实体词的文本处理方法和装置 |
CN108509420A (zh) * | 2018-03-29 | 2018-09-07 | 赵维平 | 古谱及古文化知识图谱自然语言处理方法 |
CN109062939A (zh) * | 2018-06-20 | 2018-12-21 | 广东外语外贸大学 | 一种面向汉语国际教育的智能导学方法 |
CN109271506A (zh) * | 2018-11-29 | 2019-01-25 | 武汉大学 | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 |
CN109657238A (zh) * | 2018-12-10 | 2019-04-19 | 宁波深擎信息科技有限公司 | 基于知识图谱的上下文识别补全方法、系统、终端及介质 |
Non-Patent Citations (3)
Title |
---|
An Approach for Named Entity Disambiguation with Knowledge Graph;Zhang, Ke等;《2018 INTERNATIONAL CONFERENCE ON AUDIO, LANGUAGE AND IMAGE PROCESSING (ICALIP)》;20190122;第138-143页 * |
基于表示学习的知识挖掘研究;范淼;《中国博士学位论文全文数据库信息科技辑》;20190215;I138-132 * |
面向大规模知识图谱的弹性语义推理方法研究及应用;陈曦;《中国博士学位论文全文数据库 信息科技辑》;20180115;I140-28 * |
Also Published As
Publication number | Publication date |
---|---|
CN110096573A (zh) | 2019-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110096573B (zh) | 一种文本解析方法及装置 | |
US11227118B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
WO2020001373A1 (zh) | 一种本体构建方法及装置 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
US7983902B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
WO2021109787A1 (zh) | 同义词挖掘方法、同义词词典的应用方法、医疗同义词挖掘方法、医疗同义词词典的应用方法、同义词挖掘装置及存储介质 | |
CN112347778B (zh) | 关键词抽取方法、装置、终端设备及存储介质 | |
Dawdy-Hesterberg et al. | Learnability and generalisation of Arabic broken plural nouns | |
Maier et al. | Machine translation vs. multilingual dictionaries assessing two strategies for the topic modeling of multilingual text collections | |
CN110162771B (zh) | 事件触发词的识别方法、装置、电子设备 | |
WO2020258662A1 (zh) | 关键词确定方法、装置、电子设备及存储介质 | |
JP2010537286A (ja) | 領域辞書の作成 | |
CN111221968B (zh) | 基于学科树聚类的作者消歧方法及装置 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN111324771A (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
CN110209721A (zh) | 判决文书调取方法、装置、服务器及存储介质 | |
CN112132238A (zh) | 一种识别隐私数据的方法、装置、设备和可读介质 | |
CN111177375A (zh) | 一种电子文档分类方法及装置 | |
CN110888940B (zh) | 文本信息提取方法、装置、计算机设备及存储介质 | |
WO2023124837A1 (zh) | 问诊处理方法、装置、设备及存储介质 | |
US10180938B2 (en) | Assisted free form decision definition using rules vocabulary | |
CN113076740A (zh) | 政务服务领域的同义词挖掘方法及装置 | |
CN112182235A (zh) | 一种构建知识图谱的方法、装置、计算机设备及存储介质 | |
CN110008307B (zh) | 一种基于规则和统计学习的变形实体识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |