CN110442682A - 一种文本解析方法及装置 - Google Patents

一种文本解析方法及装置 Download PDF

Info

Publication number
CN110442682A
CN110442682A CN201910735564.2A CN201910735564A CN110442682A CN 110442682 A CN110442682 A CN 110442682A CN 201910735564 A CN201910735564 A CN 201910735564A CN 110442682 A CN110442682 A CN 110442682A
Authority
CN
China
Prior art keywords
text
node
noun entity
resolution
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910735564.2A
Other languages
English (en)
Other versions
CN110442682B (zh
Inventor
姜振康
陈志刚
吴自成
陈涛
张友国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xun Feizhi Metamessage Science And Technology Ltd
Hkust Technology (suzhou) Technology Co Ltd
Original Assignee
Xun Feizhi Metamessage Science And Technology Ltd
Hkust Technology (suzhou) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xun Feizhi Metamessage Science And Technology Ltd, Hkust Technology (suzhou) Technology Co Ltd filed Critical Xun Feizhi Metamessage Science And Technology Ltd
Priority to CN201910735564.2A priority Critical patent/CN110442682B/zh
Publication of CN110442682A publication Critical patent/CN110442682A/zh
Application granted granted Critical
Publication of CN110442682B publication Critical patent/CN110442682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Abstract

本申请提供了一种文本解析方法及装置,其中,文本解析方法包括:获取第一文本,第一文本为指定领域的指定文档中的一个句子;采用预设的解析规则解析第一文本,其中,解析规则用于将第一文本解析为计算机可理解的结构化描述;若第一文本解析失败,则对第一文本进行指代消解,以将第一文本中的指代词转换为名词实体,指代消解后的文本作为第二文本;对第二文本按预设的解析规则进行解析。本申请提供的文本解析方法及装置不但可将待解析文本解析为计算机可理解的结构化描述,而且,具有较高的解析成功率。

Description

一种文本解析方法及装置
技术领域
本申请涉及文本处理技术领域,尤其涉及一种文本解析方法及装置。
背景技术
近年来,随着人工智能和大数据技术的发展,使用计算机来辅助人工工作已成为各行各业的发展方向。
在某些应用场景下,人们希望用计算机来自动处理文本,比如,对文本进行自动审核、自动评估等。可以理解的是,使用计算机处理文本,首先需要针对待处理文本获得计算机能够理解的结构化表达。
然而,在某些领域并不存在文本的结构化表达,比如,工程建筑领域是信息化程度低的领域,该领域的一些文档比如标准规范、图集、技术文件、政策法规等均不存在结构化表达,为了能够使用计算机来辅助人工处理文本,亟需一种能够将用自然语言描述的文本转换为计算机可理解的结构化表达的方案。
发明内容
有鉴于此,本申请提供了一种文本解析方法及装置,用以将用自然语言描述的文本解析为计算机可理解的结构化表达,其技术方案如下:
一种文本解析方法,包括:
获取第一文本,所述第一文本为指定领域的指定文档中的一个句子;
采用预设的解析规则解析所述第一文本,其中,所述解析规则用于将所述第一文本解析为计算机可理解的结构化描述;
若所述第一文本解析失败,则对所述第一文本进行指代消解,以将所述第一文本中的指代词转换为名词实体,指代消解后的文本作为第二文本;
对所述第二文本按所述预设的解析规则进行解析。
可选的,所述解析规则包括至少一种,每种解析规则对应一种文本类型;
所述采用预设的解析规则解析所述第一文本,包括:
采用至少一种解析规则对所述第一文本进行解析,若所述至少一种解析规则中的任一种解析规则能够成功解析所述第一文本,则确定所述第一文本解析成功,若所述至少一种解析规则中的每种解析规则均无法成功解析所述第一文本,则确定所述第一文本解析失败。
可选的,所述对所述第一文本进行指代消解,包括:
采用预先建立的文本归一化模型对所述第一文本进行归一化,归一化后得到的文本作为目标文本,其中,所述文本归一化模型用于将所述第一文本处理成规范的表达;
从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体,作为目标名词实体;
将所述目标文本中的指代词替换为所述目标名词实体。
可选的,所述文本归一化模型包括编码模块和解码模块;
所述采用预先建立的文本归一化模型对所述第一文本进行归一化,包括:
获取所述第一文本对应的空间位置向量,其中,所述第一文本对应的空间位置向量能够表征所述第一文本中各实体的空间位置关系;
通过所述文本归一化模型的编码模块,将所述第一文本编码为上下文向量,作为所述第一文本对应的句向量;
通过所述文本归一化模型的解码模块,根据所述第一文本对应的空间位置向量和所述第一文本对应的句向量,确定所述第一文本规范的表达。
可选的,所述从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体,包括:
根据所述目标文本的内容、所述指定领域的知识图谱以及预设的节点连接规则,生成指代词与名词实体关系图,其中,所述指代词与名词实体关系图包括名词实体节点、指代词节点、属性节点和属性值节点,节点之间通过有向连接线连接,所述预设的节点连接规则根据指代词、名词实体、指代词的属性、指代词的属性值、名词实体的属性、名词实体的属性值的关系设定;
根据所述指代词与名词实体关系图,从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体。
可选的,所述预设的节点连接规则为:
指代词节点的属性值节点指向指代词节点的属性节点,指代词节点的属性节点指向指代词节点;
对于任一名词实体节点,该名词实体节点指向该名词实体节点的属性节点,该名词实体节点的属性节点指向该名词实体节点的属性值节点;
任意两个属性节点之间相互指向;
任意两个名词实体节点之间相互指向;
指代词节点分别指向各名词实体节点;
各名词实体节点的属性值节点均指向指代词的属性值节点。
可选的,所述根据所述指代词与名词实体关系图,从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体,包括:
确定所述指代词与名词实体关系图中各个节点的初始权重,以及具有直接连接关系的节点间的转移概率;
根据所述指代词与名词实体关系图中各个节点的初始权重,以及具有直接连接关系的节点间的转移概率,从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体。
可选的,确定两个实体节点之间的转移概率包括:根据两个名词实体节点所代表的两个名词实体之间的关系确定所述两个名词实体节点之间的转移概率;
确定指代词节点与名词实体节点之间的转移概率包括:确定指代词节点的属性节点所代表的属性与名词实体节点所代表的名词实体共同出现的概率,作为所述指代词节点与名词实体节点之间的转移概率;
确定两个属性节点之间的转移概率包括:通过两个属性节点所代表的两个属性分别对应的词向量的相似度,以及两个属性节点所代表的两个属性的相似度,确定所述两个属性节点之间的转移概率;
确定两个属性值节点之间的转移概率包括:根据两个属性值节点所代表的两个属性值的类型,确定两个属性值节点之间的转移概率。
可选的,所述根据所述指代词与名词实体关系图中各个节点的初始权重,以及具有直接连接关系的节点间的转移概率,从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体,包括:
遍历所述指代词与名词实体关系图中的节点:针对当前遍历到的节点,选取一预设范围内的概率作为参考概率,对于当前遍历到的节点所指向的每个节点,若当前遍历到的节点与该节点之间的转移概率大于所述参考概率,则根据当前遍历到的节点的当前权重和当前遍历到的节点与该节点之间的转移概率更新该节点的当前权重,若当前遍历到的节点与该节点之间的转移概率小于或等于所述参考概率,则维持该节点的当前权重不变;
若遍历次数达到预设次数,或者,所述指代词与名词实体关系图中各名词实体节点的权重趋于稳定,则根据所述指代词与名词实体关系图中各名词实体节点的当前权重,确定所述目标文本中的指代词所指代的名词实体;否则,返回所述遍历所述指代词与名词实体关系图中的节点。
可选的,所述文本解析方法还包括:
若所述第二文本解析失败,则确定所述第二文本为描述类文本,其中,所述描述类文本用于描述所述指定领域的对象应符合的特征;
判别所述第二文本是否合规。
可选的,所述判别所述第二文本是否合规,包括:
获取指定领域的对象的模型;
将所述模型转换为文本化描述,获得所述模型对应的文档;
根据所述第二文本分别与所述模型对应的文档中各个句子的相似度,确定所述第二文本是否合规。
可选的,所述根据所述第二文本分别与所述模型对应的文档中各个句子的相似度,确定所述第二文本是否合规,包括:
获取所述第二文本分别与所述模型对应的文档中各个句子的相似度中的最大相似度;
若所述最大相似度大于预设的相似度阈值,则确定所述第二文本合规,否则,确定所述第二文本不合规。
一种文本解析装置,包括:文本获取模块、第一文本解析模块、指代消解模块和第二文本解析模块;
所述文本获取模块,用于获取第一文本,所述第一文本为指定领域的指定文档中的一个句子;
所述第一文本解析模块,用于采用预设的解析规则解析所述第一文本,其中,所述解析规则用于将所述第一文本解析为计算机可理解的结构化描述;
所述指代消解模块,用于当所述第一文本解析失败时,对所述第一文本进行指代消解,以将所述第一文本中的指代词转换为名词实体,指代消解后的文本作为第二文本;
所述第二文本解析模块,用于对所述第二文本按所述预设的解析规则进行解析。
可选的,所述解析规则包括至少一种,每种解析规则对应一种文本类型;
所述述第一文本解析模块,具体用于采用至少一种解析规则对所述第一文本进行解析,若所述至少一种解析规则中的任一种解析规则能够成功解析所述第一文本,则确定所述第一文本解析成功,若所述至少一种解析规则中的每种解析规则均无法成功解析所述第一文本,则确定所述第一文本解析失败。
可选的,所述指代消解模块包括文本归一化模块、指代对象确定模块和指代词替换模块;
所述文本归一化模块,用于采用预先建立的文本归一化模型对所述第一文本进行归一化,归一化后得到的文本作为目标文本,其中,所述文本归一化模型用于将所述第一文本处理成规范的表达;
所述指代对象确定模块,用于从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体,作为目标名词实体;
所述指代词替换模块,用于将所述目标文本中的指代词替换为所述目标名词实体。
可选的,所述文本归一化模型包括编码模块和解码模块;
所述述文本归一化模块,具体用于获取所述第一文本对应的空间位置向量,通过所述文本归一化模型的编码模块,将所述第一文本编码为上下文向量,作为所述第一文本对应的句向量,通过所述文本归一化模型的解码模块,根据所述第一文本对应的空间位置向量和所述第一文本对应的句向量,确定所述第一文本规范的表达。
可选的,所述名词实体确定模块包括:指代词与名词实体关系图生成子模块和指代对象确定子模块;
所述指代词与名词实体关系图生成子模块,用于根据所述目标文本的内容、所述指定领域的知识图谱以及预设的节点连接规则,生成指代词与名词实体关系图,其中,所述指代词与名词实体关系图包括名词实体节点、指代词节点、属性节点和属性值节点,节点之间通过有向连接线连接,所述预设的节点连接规则根据指代词、名词实体、指代词的属性、指代词的属性值、名词实体的属性、名词实体的属性值的关系设定;
所述指代对象确定子模块,用于根据所述指代词与名词实体关系图,从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体。
可选的,所述预设的节点连接规则为:
指代词节点的属性值节点指向指代词节点的属性节点,指代词节点的属性节点指向指代词节点;
对于任一名词实体节点,该名词实体节点指向该名词实体节点的属性节点,该名词实体节点的属性节点指向该名词实体节点的属性值节点;
任意两个属性节点之间相互指向;
任意两个名词实体节点之间相互指向;
指代词节点分别指向各名词实体节点;
各名词实体节点的属性值节点均指向指代词的属性值节点。
可选的,所述指代对象确定子模块包括:初始权重确定子模块、转移概率确定子模块和名词实体确定子模块;
所述初始权重确定子模块,用于确定所述指代词与名词实体关系图中各个节点的初始权重;
所述转移概率确定子模块,用于确定具有直接连接关系的节点间的转移概率;
所述名词实体确定子模块,用于根据所述指代词与名词实体关系图中各个节点的初始权重,以及具有直接连接关系的节点间的转移概率,从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体。
可选的,所述名词实体确定子模块,具体用于遍历所述指代词与名词实体关系图中的节点:针对当前遍历到的节点,选取一预设范围内的概率作为参考概率,对于当前遍历到的节点所指向的每个节点,若当前遍历到的节点与该节点之间的转移概率大于所述参考概率,则根据当前遍历到的节点的当前权重和当前遍历到的节点与该节点之间的转移概率更新该节点的当前权重,若当前遍历到的节点与该节点之间的转移概率小于或等于所述参考概率,则维持该节点的当前权重不变;若遍历次数达到预设次数,或者,所述指代词与名词实体关系图中各名词实体节点的权重趋于稳定,则根据所述指代词与名词实体关系图中各名词实体节点的当前权重,确定所述目标文本中的指代词所指代的名词实体;否则,返回所述遍历所述指代词与名词实体关系图中的节点。
可选的,所述文本解析装置还包括:文本确定模块和文本判别模块;
所述文本确定模块,用于当所述第二文本解析失败时,确定所述第二文本为描述类文本,其中,所述描述类文本用于描述所述指定领域的对象应符合的特征;
所述文本判别模块,用于判别所述第二文本是否合规。
可选的,所述文本判别模块包括:模型获取子模块、模型转换子模块和文本判别子模块;
所述模型获取子模块,用于获取指定领域的对象的模型;
所述模型转换子模块,用于将所述模型转换为文本化描述,获得所述模型对应的文档;
所述文本判别子模块,用于根据所述第二文本分别与所述模型对应的文档中各个句子的相似度,确定所述第二文本是否合规。
经由上述方案可知,本申请提供的文本解析方法及装置,在获得待解析的第一文本后,首先按预设的解析规则对第一文本进行解析,若解析成功,则解析结果即为计算机可理解的结构化描述,若解析失败,则表明第一文本无法直接解析,此时,对第一文本进行指代消解,对指代消解后的文本再次进行解析。由此可见,本申请提供的文本解析方法能够将待解析文本解析为计算机可理解的结构化描述,这使得后续可利用计算机辅助人工进行文本处理(比如,文本检查),另外,本申请在待解析文本首次解析失败时,可通过对待解析文本进行指代消解来提高解析成功率,即,本申请实施例提供的文本解析方法不但可将待解析文本解析为计算机可理解的结构化描述,而且,具有较高的解析成功率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的文本解析方法的流程示意图;
图2为本申请实施例提供的对第一文本进行指代消解的流程示意图;
图3为本申请实施例提供的采用预先建立的文本归一化模型对第一文本进行归一化的流程示意图;
图4为本申请实施例提供的文本归一化模型的拓扑结构一示例的示意图;
图5为本申请实施例提供的从目标文本中所包含的名词实体中,确定目标文本中的指代词所指代的名词实体的流程示意图;
图6为本申请实施例提供的指代词与名词实体关系图的一示例;
图7为本申请实施例提供的判别第二文本是否合规的流程示意图;
图8为本申请实施例提供的文本解析装置的结构示意图;
图9为本申请实施例提供的文本解析设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了将文本转换为计算机可理解的结构化表达,本案发明人进行了深入研究,最终提出了一种文本解析方法,该文本解析方法适用于需要将文本解析为计算机可理解的结构化表达的应用场景,该文本解析方法可应用于具有数据处理能力的终端,也可应用于服务器。接下来通过下述实施例对本申请提供的文本解析方法进行介绍。
请参阅图1,示出了本申请实施例提供的文本解析方法的流程示意图,该方法可以包括:
步骤S101:获取第一文本。
其中,第一文本为指定领域的指定文档中的一个待解析的句子。
作为发展中国家,我国工程建设量大,凡涉及新、扩、改建工程,都必须对设计成果进行检查,尤其对涉及公众安全、公众利益、强制性标准条文方面的审查尤为重要,目前的检查方式为人工检查方式,然而,人工检查方式对人员专业能力要求极高,且存在成果检查不全面、质量低、数据统计难等一系列问题。若要解决这些问题,就需要将待检查文档转换为计算机可理解的结构化表达,进而利用计算机辅助人工进行文档检查,然而,建筑行业是信息化程度低的行业,建筑领域的标准规范、图集、技术文件和政策法规主要介质是纸质文档,也有部分数字文档,这些文档目前没有结构化的表达,导致计算机无法理解和利用,因此,对文档的结构化表达一直以来是亟待解决的问题。
有鉴于此,本实施例中指定领域的指定文档可以但不限定为工程建筑领域的标准规范、图集、技术文件、政策法规等。
步骤S102:采用预设的解析规则解析第一文本。
其中,解析规则用于将第一文本解析为计算机可理解的结构化描述。
可选的,预设的解析规则可以为基于ABNF文法的解析规则,ABNF文法是一种基于巴科斯-瑙尔范式的、有自己的语法和派生规则的元语言,其能够定义推导规则,从而将输入的文本解析为计算机可理解的结构化描述。优选的,可采用加通配符的ABNF文法进行解析,加通配符的目的是为了提高解析成功率。
ABNF文法定义了句子的各个语法成分,包括句子的主体词、副词、助词、动词、数词等,示例性的,待解析文本为“窗台的高度不应小于2m”,其中,主体词为“窗台”和“高度”,助词是“的”,副词是“应”,动词是“小于”,数词是2,单位是“m”,采用基于ABNF文法的解析规则对“窗台的高度不应小于2m”进行解析可得到如下所示的解析结果,该解析结果即为计算机可理解的结构化描述:
需要说明的是,本实施例中的解析规则包括至少一种,优选为多种,每种解析规则对应一种文本类型,文本类型可以包括数值类型、比较类型、成分类型、要求类型、条件类型、复合类型中的一种或多种。
其中,数值类型的文本描述一类元素的具体尺寸或某一方面具体的数值化要求,比如,“窗台的高度不应小于2米”;比较类型的文本描述两类元素组间的相对大小关系的约束,比如,“局部净高的室内面积不应大于室内使用面积的1/3”;成分类型描述一类元素包含某一或某些元素,比如,“每套住宅宜设阳台或平台”;要求类型的文本描述一类元素所满足的必要条件,比如,“住宅地下室应采取有效防水措施”;条件类型的文本描述一类元素在满足一条件时应该满足的必要条件,比如,“楼梯井净宽大于0.11m时,楼梯井必须采取防止儿童攀滑的措施”;复合类型为上述五种类型中至少两种类型的组合。
本实施例采用至少一种解析规则(优选为多种)对第一文本进行解析,若至少一种解析规则中的任一种解析规则能够成功解析第一文本,则确定第一文本解析成功,若至少一种解析规则中的每种解析规则均无法成功解析第一文本,则确定第一文本解析失败。
示例性的,解析规则包括数值类型对应的解析规则、比较类型对应的解析规则、成分类型对应的解析规则、要求类型对应的解析规则以及条件类型对应的解析规则,在获得第一文本后,若上述任一种解析规则能够成功解析第一文本,即确定第一文本解析成功,假设数值类型对应的解析规则成功解析第一文本,则采用数值类型对应的解析规则对第一文本进行解析得到的解析结果即为第一文本对应的结构化描述,同时说明第一文本为数值类型的文本,若上述五种解析规则均无法成功解析第一文本,则确定第一文本解析失败,第一文本解析失败表明第一文本无法直接解析。
步骤S103:若第一文本解析失败,则对第一文本进行指代消解,指代消解后的文本作为第二文本。
其中,指代消解指的是将将第一文本中的指代词转换为名词实体。
步骤S104:对第二文本按预设的解析规则进行解析。
本申请实施例提供的文本解析方法,在获得待解析的第一文本后,首先按预设的解析规则对第一文本进行解析,若解析成功,则解析结果即为计算机可理解的结构化描述,若解析失败,则表明第一文本无法直接解析,此时,对第一文本进行指代消解,对指代消解后的文本再次进行解析。由此可见,本申请实施例提供的文本解析方法能够将待解析文本解析为计算机可理解的结构化描述,这使得后续可利用计算机辅助人工进行文本处理(比如,文本检查),另外,本申请在待解析文本首次解析失败时,可通过对待解析文本进行指代消解来提高解析成功率,即,本申请实施例提供的文本解析方法不但可将待解析文本解析为计算机可理解的结构化描述,而且,具有较高的解析成功率。
接下来对上述实施例中的步骤S103中的“对第一文本进行指代消解”进行介绍。
请参阅图2,示出了对第一文本进行指代消解的流程示意图,可以包括:
步骤S201:采用预先建立的文本归一化模型对第一文本进行归一化,归一化后得到的文本作为目标文本。
其中,归一化模型用于将第一文本处理成规范的表达。
可以理解的是,含义相同的句子可能具有多种不同的表达方式,比如,“如果窗户在卧室,那么它的长度不应低于1m”和“如果卧室有窗户,那么它的长度不应低于1m”具有相同的含义,但表达方式不同,本步骤的目的在于将文本处理成规范的表达,比如,上述的两个句子的规范表达为“卧室的窗户长度不应低于1m”。
步骤S202:从目标文本中所包含的名词实体中,确定目标文本中的指代词所指代的名词实体,作为目标名词实体。
示例性的,目标文本为“当卫生间设置便器、洗浴器时,其使用面积不小于2.00m2”,其中,“卫生间”、“便器”和“洗浴器”为名词实体,“其”为指代词,步骤S202的目的在从“卫生间”、“便器”和“洗浴器”中确定“其”所指代的名词实体。
步骤S203:将目标文本中的指代词替换为目标名词实体。
假设上述示例“当卫生间设置便器、洗浴器时,其使用面积不小于2.00m2”中“其”指代的是“卫生间”,则将“其”替换为“卫生间”,可得到指代消解后的文本,即第二文本“当卫生间设置便器、洗浴器时,卫生间使用面积不小于2.00m2”。
以下对上述实施例中的“步骤S201:采用预先建立的文本归一化模型对第一文本进行归一化,归一化后得到的文本作为目标文本”进行介绍。
在一种可能的实现方式中,本实施例中的文本归一化模型可以包括编码模块和解码模块,请参阅图3,示出了采用预先建立的文本归一化模型对第一文本进行归一化的流程示意,可以包括:
步骤S301:获取第一文本对应的空间位置向量。
其中,第一文本对应的空间位置向量能够表征第一文本中各实体的空间位置关系。
在本实施例中,可根据指定领域中对象的空间结构确定第一文本对应的空间位置向量。
示例性的,第一文本为工程建筑领域的文本,则可根据工程领域中建筑的空间结构确定第一文本对应的空间位置向量,进一步的,可根据建筑的空间结构的空间层级确定第一文本对应的空间位置向量。可以理解的是,建筑包含楼层、楼层包含房间、房间包含地板,建筑、楼层、房间、地板均为空间结构,可根据这些空间结构的关系设定各个空间结构的空间层级,比如,建筑的空间层级用10表示,楼层的空间层级用9表示,房间的空间层级用8表示,地板的空间层级用7表示,其它非空间结构的空间层级均用0表示。
需要说明是,建筑的空间结构不是无穷无尽的,可预先定义各个空间结构的空间层级(相当于预先设定了一个字典),当文本中出现空间结构的词语时,可根据预先定义的各个空间结构的空间层级确定其空间层级,比如,文本中出现“房间”时,根据预先定义的各个空间结构的空间层级可确定“房间”的空间层级是8。
示例的是,第一文本为“房间的地板应具有防滑设置”,根据预先定义的各个空间结构的层级可确定“房间”的空间层级为8,“地板”的空间层级为7,则将“房”和“间”均用8表示,“地”和“板”均用7表示,“的”、“应”、“具”、“有”、“防”、“滑”、“设”、“施”均用“0”表示,“房间的地板应具有防滑设置”对应的空间位置向量为[8,8,0,7,7,0,0,0,0,0,0,0]。
步骤S302:通过文本归一化模型的编码模块,将第一文本编码为上下文向量,作为第一文本对应的句向量。
步骤S303:通过文本归一化模型的解码模块,根据第一文本对应的空间位置向量和第一文本对应的句向量,确定第一文本规范的表达。
具体的,可先将第一文本对应的空间位置向量归一化(比如,空间位置向量中的元素归一化为0-1之间的值),然后将归一化后的空间位置向量与第一文本对应的句向量拼接,拼接后的向量输入解码模块进行解码,从而获得第一文本规范的表达。
需要说明的是,在对文本进行规范化时,引入空间位置向量的目的是,保证归一化后的文本中各实体(比如建筑的空间结构)所属关系的逻辑正确性,比如,卧室的层级大于窗户的层级,最后解码模块输出的一定是“卧室的窗户”或“窗户在卧室”。
可选的,本实施例中的文本归一化模型可以但不限定为Seq2Seq模型,请参阅图4,示出了本实施例提供的文本归一化模型的拓扑结构的一示例的示意图,如图4所示,401为编码模块,402为解码模块,编码模块401的输入为第一文本,图4中的i1~in为第一文本的各个字符,编码模块401的输出为第一文本对应的句向量,第一文本对应的空间位置向量S归一化后与第一文本对应的句向量进行拼接,拼接后的向量输入解码模块402,解码模块402对拼接后的向量进行解码,输出第一文本的规范化表达,图4中的O1~Om为第一文本的规范化表达的各个字符。
接下来对上述实施例中的“步骤S302:从目标文本中所包含的名词实体中,确定目标文本中的指代词所指代的名词实体,作为目标名词实体”的实现过程进行介绍。
请参阅图5,示出了从目标文本中所包含的名词实体中,确定目标文本中的指代词所指代的名词实体的流程示意图,可以包括:
步骤S501:根据目标文本的内容、指定领域的知识图谱以及预设的节点连接规则,生成指代词与名词实体关系图。
其中,指代词与名词实体关系图中包括名词实体节点、指代词节点、属性节点和属性值节点,节点之间通过有向连接线连接。
示例性的,目标文本为“当卫生间设置便器、洗浴器时,其使用面积不小于2.00m2”,其中,“卫生间”、“便器”、“洗浴器”为名词实体,“其”为指代词,“使用面积”为指代词“其”的属性,“不小于2.00m2”为属性“使用面积”的属性值。
其中,预设的节点连接规则根据指代词、名词实体、指代词的属性、指代词的属性值、名词实体的属性、名词实体的属性值的关系设定。
具体的,预设的节点连接规则可以为:指代词节点的属性值节点指向指代词节点的属性节点,指代词节点的属性节点指向指代词节点;对于任一名词实体节点,该名词实体节点指向该名词实体节点的属性节点,该名词实体节点的属性节点指向该名词实体节点的属性值节点;任意两个属性节点相互指向;任意两个名词实体节点之间相互指向;指代词节点分别指向各个名词实体节点;各名词实体节点的属性值节点均指向指代词的属性值节点。
示例性的,目标文本为工程建筑领域的一文本“当卫生间设置便器、洗浴器时,其使用面积不小于2.00m2”,则根据目标文本的内容、工程领域的知识图谱以及预设的节点连接规则生成的指代词与名词实体关系图如图6所示,图6中包括3个名词实体节点、1个指代词节点、4个属性节点和4个属性值节点,其中,3个名词实体节点分别为“洗浴器”节点、“卫生间”节点、“便器”节点,1个指代词节点为“其”节点,4个属性节点分别为“面积”节点、“面积”节点、“使用面积”节点和“有效面积”节点、4个属性值节点分别为“<1.5m2”节点、“<1m2”节点、“>2m2”节点、“>1m2”节点,需要说明的是,“洗浴器”节点、“卫生间”节点、“便器”节点、“其”节点、“使用面积”节点、和“>2m2”节点根据目标文本的内容生成,其它节点根据名词实体“卫生间”、“便器”和“洗浴器”以及知识图谱生成,比如,根据知识图谱可获知“卫生间”的有效面积大于1m2,基于此,可生成“有效面积”节点和“>1m2”节点,其它类似。
需要说明的是,图6中最上方的“面积”节点和“<1.5m2”节点为“洗浴器”节点的属性节点和属性值节点,中间位置的“面积”节点和“<1m2”节点分别为“便器”节点的属性节点和属性值节点,“有效面积”节点和“>1m2”节点为“卫生间”节点的属性节点和属性值节点,“使用面积”节点和“>2m2”节点为“其”节点的属性节点和属性值节点,图6中各节点之间根据上述的连接规则进行连接,具体的:
a、指代词节点的属性值节点指向指代词节点的属性节点,指代词节点的属性节点指向指代词节点:“>2m2”节点指向“使用面积”节点,“使用面积”节点指向“其”节点;
b、名词实体节点指向该名词实体节点的属性节点,该名词实体节点的属性节点指向该名词实体节点的属性值节点:“洗浴器”节点指向图上方的“面积”节点,图上方的“面积”节点指向“<1.5m2”节点,“卫生间”节点指向“有效面积”节点,“有效面积”节点指向“>1m2”节点,“便器”节点指向图中部的“面积”节点,图中部的“面积”节点指向“<1m2”节点;
c、属性节点与属性节点之间相互指向:“有效面积”节点与图上方的“面积”节点之间相互指向,“有效面积”节点与图中部的“面积”节点之间相互指向,“有效面积”节点与“使用面积”节点相互指向,两个“面积”节点之间相互指向,“使用面积”节点与图上方的“面积”节点之间相互指向,“使用面积”节点与图中部的“面积”节点之间相互指向;
d、任意两个名词实体节点之间相互指向:“洗浴器”节点与“卫生间”节点之间相互指向,“洗浴器”节点与“便器”节点之间相互指向,“卫生间”与“便器”节点之间相互指向;
e、指代词节点分别指向各个名词实体节点:“其”节点分别指向“洗浴器”节点、“卫生间”节点、“便器”节点;
f、各名词实体节点的属性值节点均指向指代词的属性值节点:“<1.5m2”节点、“>1m2”节点、“<1m2”节点分别指向“>2m2”节点。
步骤S502:根据指代词与名词实体关系图,从目标文本中所包含的名词实体中,确定目标文本中的指代词所指代的名词实体。
具体的,根据指代词与名词实体关系图,从目标文本中所包含的名词实体中,确定目标文本中的指代词所指代的名词实体的过程可以包括:
步骤S502-1、确定指代词与名词实体关系图中各个节点的初始权重,以及具有直接连接关系的节点间的转移概率。
首先对确定指代词与名词实体关系图中各个节点的初始权重进行介绍。
确定任一名词实体节点的初始权重的过程包括:计算指代词与该名词实体节点所代表的名词实体的距离;计算该名词实体节点所代表的名词实体与指代词的句子距离;将上述两个距离求和,求和得到的值作为该名词实体节点的初始权重。需要说明的是,也可将上述两个距离中的任一距离作为该名词实体节点的初始权重。
具体的,指代词R与一名词实体节点所代表的名词实体Ei的距离可通过下式计算:
其中,y1(R,Ei)为指代词的第一个字符与名词实体Ei的第一个字符的字符串距离,N为名词实体节点的个数。
具体的,名词实体节点所代表的名词实体Ei与指代词R的句子距离可通过下式计算:
其中,y2(R,Ei)为指代词的第一个字符与名词实体Ei的第一个字符的句子数距离,N为名词实体节点的个数。
在本实施例中,可将指代词节点的初始权重设定为1,各个属性节点和属性值节点的初始权重均设置为0。
接下对确定指代词与名词实体关系图中具有直接连接关系的节点间的转移概率进行介绍。
a、两个名词实体节点之间的转移概率
确定两个名词实体节点之间的转移概率的过程包括:根据两个名词实体节点所代表的两个名词实体之间的关系,确定两个名词实体节点之间的转移概率。
具体的,具有直接连接关系的两个名词实体节点之间的转移概率可通过下式确定:
其中,E1和E2为两个名词实体节点所代表的两个名词实体,initE1-E2为E1和E2关系的平滑因子,其可以为预先设定的一较小值,比如0.001。
需要说明的是,若E1属于E2,或者,E1和E2是并列关系,则,两个名词实体节点之间的转移概率为initE1-E2加1;若E1包含E2,并且,E1与E2在分句中是主宾关系,或者在分句中E2修饰E1,则两个名词实体节点之间的转移概率为initE1-E2加0.1;若E2包含E1,并且,E2与E1在分句中是主宾关系,或者在分句中E1修饰E2,则两个名词实体节点之间的转移概率为initE1-E2加0.9;若为其它情况,则两个名词实体节点之间的转移概率为initE1-E2加0.5。
b、指代词节点与名词实体节点之间的转移概率
确定指代词节点与名词实体节点之间的转移概率包括:确定指代词节点的属性节点所代表的属性与名词实体节点所代表的名词实体共同出现的概率,作为指代词节点与名词实体节点之间的转移概率。
具体的,指代词节点的属性节点所代表的属性与名词实体节点所代表的名词实体共同出现的概率可通过下式计算:
其中,式(4)中的分子为名词实体节点所代表的名词实体E1与指代词节点的属性节点所代表的属性AR共同出现的次数,分母为所有名词实体节点分别代表的名词实体与指代词节点的属性节点所代表的属性AR共同出现的次数之和。
c、属性节点与属性节点之间的转移概率
确定两个属性节点之间的转移概率包括:通过两个属性节点所代表的两个属性分别对应的词向量的相似度,以及两个属性节点所代表的两个属性的相似度,确定两个属性节点之间的转移概率。
具体的,两个属性节点所代表的两个属性分别对应的词向量的相似度可通过下式确定:
其中,式(5)中的fword2vec为两个属性节点所代表的两个属性A1和A2基于词向量的余弦相似度,fdice为A1和A2的dice系数。
进一步,fword2vec可通过下式计算:
其中,式(6)的分子为A1的词向量与A2的词向量的点乘结果,分母为A1的模值与A2的模值的乘积。
fdice可通过下式计算:
其中,式(7)的分子为A1与A2的字符串交集,分母为A1的字符串长度与A2的字符串长度之和。
d、属性值节点与属性值节点之间的转移概率
确定两个属性值节点之间的转移概率包括:根据两个属性值节点所代表的两个属性值的类型,确定两个属性值节点之间的转移概率。
具体的,两个属性值节点之间的转移概率通过下式计算:
其中,initV1-V2为两个属性值节点分别代表的两个属性值V1与V2关系的平滑因子,其可以为预先设定的一较小值,比如0.001。
上式(8)中的fp根据V1和V2的类型确定,具体的:
d1、V1和V2均为文本
fp为V1与V2基于词向量的余弦相似度与A1和A2的dice系数之和。V1与V2基于词向量的余弦相似度可根据上式(6)计算得到(将上式(6)中的A1和A2替换为V1和V2),A1和A2的dice系数可根据上式(7)计算得到(将上式(7)中的A1和A2替换为V1和V2)。
d2、V1和V2中一个为文本,另一个为数值或数值范围
fp的值为0。
d3、V1和V2均为数值
若V1和V2单位不同,则fp的值为0;若V1和V2单位相同,则fp的值为V1和V2中的最小值与V1和V2中的最大值的商,即:
d4、V1和V2均为数值范围
若V1和V2单位不同,则fp的值为0;若V1和V2单位相同,假设数值符合高斯分布且以数值范围中点为均值,数值范围为0.95置信度的范围区间,则fp可以为两个高斯分布(即两个数值范围)的KL散度,其中,高斯分布为:
两个数值范围的KL散度通过下式确定:
其中,p(x)和q(x)为两个数值范围,D(p∥q)即为fp
d5、V1和V2中一个为数值,另一个为数值范围
如果数值属于数值范围,则fp的值为1,否则,fp的值为0,即:
e、名词实体节点与该名词实体节点的属性节点之间的转移概率
名词实体节点与该名词实体节点的属性节点之间的转移概率设定为1。
f、指代词节点与指代词节点的属性节点之间的转移概率
指代词节点与指代词节点的属性节点之间的转移概率设定为1。
g、属性节点与属性值节点之间的转移概率
属性节点与该属性节点的属性值节点之间的转移概率设定为1。
h、指代词节点的属性节点与指代词节点的属性值节点之间的转移概率
指代词节点的属性节点与指代词节点的属性值节点之间的转移概率设定为1。
获得具有直接连接关系的节点间的转移概率后,需要将各转移概率进行归一化(归一化为0-1之间的值)。另外,不具有直接连接关系的节点间的转移概率为0。
步骤S502-2、根据指代词与名词实体关系图中各个节点的初始权重,以及具有直接连接关系的节点间的转移概率,从目标文本中所包含的名词实体中,确定目标文本中的指代词所指代的名词实体。
具体的,步骤S502-2的实现过程可以包括:遍历指代词与名词实体关系图中的节点:针对当前遍历到的节点n,选取一预设范围内的概率(0-1之间的概率)作为参考概率p′,对于当前遍历到的节点n所指向的每个节点mk,若当前遍历到的节点n与该节点mk之间的转移概率pk大于参考概率p′,则根据当前遍历到的节点n的当前权重ω和当前遍历到的节点n与该节点mk之间的转移概率pk更新该节点mk的当前权重,若当前遍历到的节点n与该节点mk之间的转移概率pk小于或等于参考概率p′,则维持该节点mk的当前权重不变;若遍历次数达到预设次数,或者,指代词与名词实体关系图中各实体节点的权重趋于稳定,则结束遍历,根据指代词与名词实体关系图中各名词实体节点的当前权重确定目标文本中的指代词所指代的名词实体,否则,返回“遍历指代词与名词实体关系图中的节点”。
其中,根据当前遍历到的节点n的当前权重ω和当前遍历到的节点n与该节点mk之间的转移概率pk更新该节点mk的当前权重的过程包括:在节点mk的当前权重ω上加上权重ω′,ω′为当前遍历到的节点n的当前权重与pk(即当前遍历到的节点n与节点mk之间的转移概率)的乘积。
其中,根据指代词与名词实体关系图中各名词实体节点的当前权重确定目标文本中的指代词所指代的名词实体的过程包括:将当前权重最大的名词实体节点所代表的名词实体确定为目标文本中的指代词所指代的名词实体。
下面以图6示出的指代词与名词实体关系图为例,对步骤S502-2的具体实现过程进行说明。
下表1和下表2分别示出了图6中各节点的初始权重以及节点间的转移概率(表中的面积-1指的是便器的面积,面积-2指的是洗浴器的面积):
表1各节点的初始权重
节点 节点的权重
0.54
卫生间 0.22
便器 0.10
洗浴器 0.14
使用面积 0.00
有效面积 0.00
面积-1 0.00
面积-2 0.00
&gt;2m<sup>2</sup> 0.00
&gt;1m<sup>2</sup> 0.00
&lt;1m<sup>2</sup> 0.00
&lt;1.5m<sup>2</sup> 0.00
表2节点间的转移概率
遍历图6示出的指代词与名词实体关系图中的各个节点:
假设遍历到的第一个节点为“便器”节点,针对“便器”节点设定一参考概率,比如0.3,从图6中可以看出,“便器”节点分别指向“洗浴器”节点、“卫生间”节点和“面积”节点,由表2可获得“便器”节点与“卫生间”节点之间的转移概率为0.25,由于0.25小于参考概率0.3,则不对“卫生间”节点的当前权重进行更新,“便器”节点与“洗浴器”节点之间的转移概率为0.4,由于0.4大于参考概率0.3,因此,需要对“洗浴器”节点的当前权重进行更新,更新方式为,在“洗浴器”节点的当前权重上加上(“便器”节点的当前权重0.1*转移概率0.4),“便器”节点与“面积”节点之间的转移概率为0.35,由于0.35大于参考概率0.3,因此,需要对“面积”节点的当前权重进行更新,即,在“洗浴器”节点的当前权重上加上(“便器”节点的当前权重0.1*转移概率0.35),至此,针对“便器”节点完成了其指向的各个节点的权重的更新;接着遍历下一个节点,采用上述的方式对下一个节点指向的各个节点的权重进行更新,以此类推,直至遍历完所有的节点,如此,完成一次遍历。
按上述的遍历过程进行多次遍历,在一种可能的实现方式中,结束遍历的条件为,遍历次数达到预设的遍历次数,比如,预设遍历次数为300,则遍历300次后,结束遍历,在另一种可能的实现方式中,结束遍历的条件为,各名词实体节点的权重趋于稳定,各实体节点的权重趋于稳定的体现可以为,连续N个权重的变化小于预设值(比如,0.001),其中,连续N个权重的变化小于预设值指的是N个权重中的最大值与最小值的差值小于预设值,N可根据指代词与名词实体关系图中节点的总数量确定,比如,N可以为节点的总数量加上一设定值(比如节点的总数量加4)。
下表3示出了结束遍历后,图6中各节点的最终权重:
表3各节点的最终权重
节点 节点的权重
0.05
卫生间 0.24
便器 0.11
洗浴器 0.10
使用面积 0.04
有效面积 0.03
面积(便器) 0.07
面积(洗浴器) 0.12
&gt;2m<sup>2</sup> 0.07
&gt;1m<sup>2</sup> 0.06
&lt;1m<sup>2</sup> 0.07
&lt;1.5m<sup>2</sup> 0.02
遍历结束后,根据各个名词实体节点的当前权重,确定目标文本中的指代词所指代的名词实体,具体的,将当前权重最大的名词实体节点所代表的名词实体确定为目标文本中指代词所指代的实体。由表3可知,权重最大的名词实体节点为“卫生间”节点,则目标文本“当卫生间设置便器、洗浴器时,其使用面积不小于2.00m2”中的指代词“其”所指代的是“卫生间”。
在确定出目标文本中指代词所指代的名词实体后,将指代词替换为确定出的名词实体,替换后得到的文本即为第二文本,接下来便可利用预设的解析规则对第二文本进行解析。
需要说明的是,对第二文本按预设的解析规则进行解析,可能存在两种情况,其一,解析成功,此时,解析结果即为计算机可理解的结构化表达,其二,解析失败,若解析失败,可确定第二文本为描述类文本,需要说明的是,描述类文本用于描述指定领域的对象应符合的特征,比如,描述工程领域的一类建筑应符合某些特征(如,“住宅结构在规定的设计使用年限内必须具有足够的可靠性”)。
优选的,在确定第二文本为描述类文本后,上述实施例提供的文本解析方法还可以包括:判别第二文本是否合规。
请参阅图7,示出了判别第二文本是否合规的流程示意图,可以包括:
步骤S701:获取指定领域的对象的模型。
其中,指定领域的对象的模型可以为工程建筑领域的BIM模型,BIM模型为三维建筑模型,该模型包含了建筑的所有信息,比如,卫生间的面积、窗台的高度等信息。
步骤S702:将指定领域的对象的模型转换为文本化描述,获得模型对应的文档。
步骤S703:根据第一文本分别与模型对应的文档中各个句子的相似度,确定第一文本是否合规。
具体的,分别计算第一文本与模型对应的文档中各个句子的相似度,从计算得到的相似度中获取最大相似度,若最大相似度大于预设的相似度阈值,则确定第一文本合规,否则,确定第一文本不合规。第一文本合规,则保留第一文本,第一文本不合规,可将第一文本删除。
本申请实施例提供的文本解析方法,对于可解析的非描述类文本,可将其解析为计算机可理解的结构化描述,这使得后续可利用计算机辅助人工进行文本处理(比如,文本检查),对于不可解析的描述类文本,可自动对其进行合规性检查,从而节省了人力。
本申请实施例还提供了一种文本解析装置,下面对本申请实施例提供的文本解析装置进行描述,下文描述的文本解析装置与上文描述的文本解析方法可相互对应参照。
请参阅图8,示出了本申请实施例提供的一种文本解析装置的结构示意图,该装置可以包括:文本获取模块801、第一文本解析模块802、指代消解模块803和第二文本解析模块804。
文本获取模块801,用于获取第一文本,第一文本为指定领域的指定文档中的一个句子。
第一文本解析模块802,用于采用预设的解析规则解析第一文本,其中,解析规则用于将第一文本解析为计算机可理解的结构化描述。
指代消解模块803,用于当第一文本解析失败时,对第一文本进行指代消解,以将第一文本中的指代词转换为名词实体,指代消解后的文本作为第二文本。
第二文本解析模块804,用于对第二文本按预设的解析规则进行解析。
本申请实施例提供的文本解析装置能够将待解析文本解析为计算机可理解的结构化描述,这使得后续可利用计算机辅助人工进行文本处理(比如,文本检查),另外,本申请实施例在待解析文本首次解析失败时,可通过对待解析文本进行指代消解来提高解析成功率,即,本申请实施例提供的文本解析方法不但可将待解析文本解析为计算机可理解的结构化描述,而且,具有较高的解析成功率。
在一种可能的实现方式中,解析规则包括至少一种,每种解析规则对应一种文本类型。
上述实施例提供的文本解析装置中的第一文本解析模块802,具体用于采用至少一种解析规则对所述第一文本进行解析,若所述至少一种解析规则中的任一种解析规则能够成功解析所述第一文本,则确定所述第一文本解析成功,若所述至少一种解析规则中的每种解析规则均无法成功解析所述第一文本,则确定所述第一文本解析失败。
在一种可能的实现方式中,上述实施例提供的文本解析装置中的指代消解模块803包括:文本归一化模块、指代对象确定模块和指代词替换模块。
文本归一化模块,用于采用预先建立的文本归一化模型对所述第一文本进行归一化,归一化后得到的文本作为目标文本,其中,文本归一化模型用于将第一文本处理成规范的表达。
指代对象确定模块,用于从目标文本中所包含的名词实体中,确定目标文本中的指代词所指代的名词实体,作为目标名词实体。
指代词替换模块,用于将目标文本中的指代词替换为目标名词实体。
在一种可能的实现方式中,上述的文本归一化模型包括编码模块和解码模块。
文本归一化模块,具体用于获取第一文本对应的空间位置向量,通过所述文本归一化模型的编码模块,将第一文本编码为上下文向量,作为第一文本对应的句向量,通过文本归一化模型的解码模块,根据第一文本对应的空间位置向量和第一文本对应的句向量,确定所述第一文本规范的表达。
在一种可能的实现方式中,上述的指代对象确定模块包括:指代词与名词实体关系图生成子模块和指代对象确定子模块。
指代词与名词实体关系图生成子模块,用于根据目标文本的内容、指定领域的知识图谱以及预设的节点连接规则,生成指代词与名词实体关系图。
其中,指代词与名词实体关系图包括实体节点、指代词节点、属性节点和属性值节点,节点之间通过有向连接线连接,预设的节点连接规则根据指代词、实体、指代词的属性、指代词的属性值、实体的属性、实体的属性值的关系设定。
指代对象确定子模块,用于根据指代词与名词实体关系图,从目标文本中所包含的名词实体中,确定目标文本中的指代词所指代的名词实体。
在一种可能的实现方式中,上述的预设的节点连接规则为:指代词节点的属性值节点指向指代词节点的属性节点,指代词节点的属性节点指向指代词节点;对于任一名词实体节点,该名词实体节点指向该名词实体节点的属性节点,该名词实体节点的属性节点指向该名词实体节点的属性值节点;任意两个属性节点之间相互指向;任意两个名词实体节点之间相互指向;指代词节点分别指向各个名词实体节点;各名词实体节点的属性值节点均指向指代词的属性值节点。
在一种可能的实现方式中,上述的指代对象确定子模块可以包括:初始权重确定子模块、转移概率确定子模块和名词实体确定子模块。
初始权重确定子模块,用于确定指代词与名词实体关系图中各个节点的初始权重。
转移概率确定子模块,用于确定具有直接连接关系的节点间的转移概率。
名词实体确定子模块,用于根据指代词与名词实体关系图中各个节点的初始权重,以及具有直接连接关系的节点间的转移概率,从目标文本中所包含的名词实体中,确定目标文本中的指代词所指代的名词实体。
在一种可能的实现方式中,上述的转移概率确定子模块在确定指代词节点与名词实体节点之间的转移概率时,具体用于确定指代词节点的属性节点所代表的属性与名词实体节点所代表的名词实体共同出现的概率,作为指代词节点与名词实体节点之间的转移概率。
转移概率确定子模块在确定两个属性节点之间的转移概率时,具体用于通过两个属性节点所代表的两个属性分别对应的词向量的相似度,以及两个属性节点所代表的两个属性的相似度,确定两个属性节点之间的转移概率。
转移概率确定子模块在确定两个属性值节点之间的转移概率时,具体用于根据两个属性值节点所代表的两个属性值的类型,确定两个属性值节点之间的转移概率。
在一种可能的实现方式中,上述的名词实体确定子模块,具体用于遍历指代词与名词实体关系图中的节点:针对当前遍历到的节点,选取一预设范围内的概率作为参考概率,对于当前遍历到的节点所指向的每个节点,若当前遍历到的节点与该节点之间的转移概率大于所述参考概率,则根据当前遍历到的节点的当前权重和当前遍历到的节点与该节点之间的转移概率更新该节点的当前权重,若当前遍历到的节点与该节点之间的转移概率小于或等于所述参考概率,则维持该节点的当前权重不变;若遍历次数达到预设次数,或者,指代词与名词实体关系图中各实体节点的权重趋于稳定,则根据指代词与名词实体关系图中各实体节点的当前权重确定目标文本中的指代词所指代的名词实体;否则,返回所述遍历指代词与名词实体关系图中的节点。
在一种可能的实现方式中,上述实施例提供的文本解析装置还可以包括:文本确定模块和文本判别模块。
文本确定模块,用于当第二文本解析失败时,确定第二文本为描述类文本,其中,描述类文本用于描述所述指定领域的对象应符合的特征。
文本判别模块,用于判别第二文本是否合规。
在一种可能的实现方式中,上述的文本判别模块可以包括:模型获取子模块、模型转换子模块和文本判别子模块。
模型获取子模块,用于获取指定领域的对象的模型。
模型转换子模块,用于将指定领域的对象的模型转换为文本化描述,获得模型对应的文档。
文本判别子模块,用于根据第二文本分别与模型对应的文档中各个句子的相似度,确定第二文本是否合规。
在一种可能的实现方式中,文本判别子模块,具体用于获取第二文本分别与模型对应的文档中各个句子的相似度中的最大相似度;若最大相似度大于预设的相似度阈值,则确定第二文本合规,否则,确定第二文本不合规。
本申请实施例还提供了一种文本解析设备,请参阅图9,示出了该文本解析设备的结构示意图,该文本解析设备可以包括:至少一个处理器901,至少一个通信接口902,至少一个存储器903和至少一个通信总线904;
在本申请实施例中,处理器901、通信接口902、存储器903、通信总线904的数量为至少一个,且处理器901、通信接口902、存储器903通过通信总线904完成相互间的通信;
处理器901可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器903可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取第一文本,第一文本为指定领域的指定文档中的一个句子;
采用预设的解析规则解析所述第一文本,其中,解析规则用于将第一文本解析为计算机可理解的结构化描述;
若第一文本解析失败,则对第一文本进行指代消解,以将第一文本中的指代词转换为名词实体,指代消解后的文本作为第二文本;
对第二文本按预设的解析规则进行解析。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取第一文本,第一文本为指定领域的指定文档中的一个句子;
采用预设的解析规则解析所述第一文本,其中,解析规则用于将第一文本解析为计算机可理解的结构化描述;
若第一文本解析失败,则对第一文本进行指代消解,以将第一文本中的指代词转换为名词实体,指代消解后的文本作为第二文本;
对第二文本按预设的解析规则进行解析。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (17)

1.一种文本解析方法,其特征在于,包括:
获取第一文本,所述第一文本为指定领域的指定文档中的一个句子;
采用预设的解析规则解析所述第一文本,其中,所述解析规则用于将所述第一文本解析为计算机可理解的结构化描述;
若所述第一文本解析失败,则对所述第一文本进行指代消解,以将所述第一文本中的指代词转换为名词实体,指代消解后的文本作为第二文本;
对所述第二文本按所述预设的解析规则进行解析。
2.根据权利要求1所述的文本解析方法,其特征在于,所述解析规则包括至少一种,每种解析规则对应一种文本类型;
所述采用预设的解析规则解析所述第一文本,包括:
采用至少一种解析规则对所述第一文本进行解析,若所述至少一种解析规则中的任一种解析规则能够成功解析所述第一文本,则确定所述第一文本解析成功,若所述至少一种解析规则中的每种解析规则均无法成功解析所述第一文本,则确定所述第一文本解析失败。
3.根据权利要求1所述的文本解析方法,其特征在于,所述对所述第一文本进行指代消解,包括:
采用预先建立的文本归一化模型对所述第一文本进行归一化,归一化后得到的文本作为目标文本,其中,所述文本归一化模型用于将所述第一文本处理成规范的表达;
从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体,作为目标名词实体;
将所述目标文本中的指代词替换为所述目标名词实体。
4.根据权利要求3所述的文本解析方法,其特征在于,所述文本归一化模型包括编码模块和解码模块;
所述采用预先建立的文本归一化模型对所述第一文本进行归一化,包括:
获取所述第一文本对应的空间位置向量,其中,所述第一文本对应的空间位置向量能够表征所述第一文本中各实体的空间位置关系;
通过所述文本归一化模型的编码模块,将所述第一文本编码为上下文向量,作为所述第一文本对应的句向量;
通过所述文本归一化模型的解码模块,根据所述第一文本对应的空间位置向量和所述第一文本对应的句向量,确定所述第一文本规范的表达。
5.根据权利要求3所述的文本解析方法,其特征在于,所述从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体,包括:
根据所述目标文本的内容、所述指定领域的知识图谱以及预设的节点连接规则,生成指代词与名词实体关系图,其中,所述指代词与名词实体关系图包括名词实体节点、指代词节点、属性节点和属性值节点,节点之间通过有向连接线连接,所述预设的节点连接规则根据指代词、名词实体、指代词的属性、指代词的属性值、名词实体的属性、名词实体的属性值的关系设定;
根据所述指代词与名词实体关系图,从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体。
6.根据权利要求5所述的文本解析方法,其特征在于,所述预设的节点连接规则为:
指代词节点的属性值节点指向指代词节点的属性节点,指代词节点的属性节点指向指代词节点;
对于任一名词实体节点,该名词实体节点指向该名词实体节点的属性节点,该名词实体节点的属性节点指向该名词实体节点的属性值节点;
任意两个属性节点之间相互指向;
任意两个名词实体节点之间相互指向;
指代词节点分别指向各名词实体节点;
各名词实体节点的属性值节点均指向指代词的属性值节点。
7.根据权利要求5所述的文本解析方法,其特征在于,所述根据所述指代词与名词实体关系图,从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体,包括:
确定所述指代词与名词实体关系图中各个节点的初始权重,以及具有直接连接关系的节点间的转移概率;
根据所述指代词与名词实体关系图中各个节点的初始权重,以及具有直接连接关系的节点间的转移概率,从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体。
8.根据权利要求7所述文本解析方法,其特征在于,确定两个实体节点之间的转移概率包括:根据两个名词实体节点所代表的两个名词实体之间的关系确定所述两个名词实体节点之间的转移概率;
确定指代词节点与名词实体节点之间的转移概率包括:确定指代词节点的属性节点所代表的属性与名词实体节点所代表的名词实体共同出现的概率,作为所述指代词节点与名词实体节点之间的转移概率;
确定两个属性节点之间的转移概率包括:通过两个属性节点所代表的两个属性分别对应的词向量的相似度,以及两个属性节点所代表的两个属性的相似度,确定所述两个属性节点之间的转移概率;
确定两个属性值节点之间的转移概率包括:根据两个属性值节点所代表的两个属性值的类型,确定两个属性值节点之间的转移概率。
9.根据权利要求7所述的文本解析方法,其特征在于,所述根据所述指代词与名词实体关系图中各个节点的初始权重,以及具有直接连接关系的节点间的转移概率,从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体,包括:
遍历所述指代词与名词实体关系图中的节点:针对当前遍历到的节点,选取一预设范围内的概率作为参考概率,对于当前遍历到的节点所指向的每个节点,若当前遍历到的节点与该节点之间的转移概率大于所述参考概率,则根据当前遍历到的节点的当前权重和当前遍历到的节点与该节点之间的转移概率更新该节点的当前权重,若当前遍历到的节点与该节点之间的转移概率小于或等于所述参考概率,则维持该节点的当前权重不变;
若遍历次数达到预设次数,或者,所述指代词与名词实体关系图中各名词实体节点的权重趋于稳定,则根据所述指代词与名词实体关系图中各名词实体节点的当前权重,确定所述目标文本中的指代词所指代的名词实体;否则,返回所述遍历所述指代词与名词实体关系图中的节点。
10.根据权利要求1~9中任意一项所述的文本解析方法,其特征在于,还包括:
若所述第二文本解析失败,则确定所述第二文本为描述类文本,其中,所述描述类文本用于描述所述指定领域的对象应符合的特征;
判别所述第二文本是否合规。
11.根据权利要求10所述的文本解析方法,其特征在于,所述判别所述第二文本是否合规,包括:
获取指定领域的对象的模型;
将所述模型转换为文本化描述,获得所述模型对应的文档;
根据所述第二文本分别与所述模型对应的文档中各个句子的相似度,确定所述第二文本是否合规。
12.根据权利要求11所述的文本解析方法,其特征在于,所述根据所述第二文本分别与所述模型对应的文档中各个句子的相似度,确定所述第二文本是否合规,包括:
获取所述第二文本分别与所述模型对应的文档中各个句子的相似度中的最大相似度;
若所述最大相似度大于预设的相似度阈值,则确定所述第二文本合规,否则,确定所述第二文本不合规。
13.一种文本解析装置,其特征在于,包括:文本获取模块、第一文本解析模块、指代消解模块和第二文本解析模块;
所述文本获取模块,用于获取第一文本,所述第一文本为指定领域的指定文档中的一个句子;
所述第一文本解析模块,用于采用预设的解析规则解析所述第一文本,其中,所述解析规则用于将所述第一文本解析为计算机可理解的结构化描述;
所述指代消解模块,用于当所述第一文本解析失败时,对所述第一文本进行指代消解,以将所述第一文本中的指代词转换为名词实体,指代消解后的文本作为第二文本;
所述第二文本解析模块,用于对所述第二文本按所述预设的解析规则进行解析。
14.根据权利要求13所述的文本解析装置,其特征在于,所述指代消解模块包括文本归一化模块、指代对象确定模块和指代词替换模块;
所述文本归一化模块,用于采用预先建立的文本归一化模型对所述第一文本进行归一化,归一化后得到的文本作为目标文本,其中,所述文本归一化模型用于将所述第一文本处理成规范的表达;
所述指代对象确定模块,用于从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体,作为目标名词实体;
所述指代词替换模块,用于将所述目标文本中的指代词替换为所述目标名词实体。
15.根据权利要求14所述的文本解析装置,其特征在于,所述指代对象确定模块包括:指代词与名词实体关系图生成子模块和指代对象确定子模块;
所述指代词与名词实体关系图生成子模块,用于根据所述目标文本的内容、所述指定领域的知识图谱以及预设的节点连接规则,生成指代词与名词实体关系图,其中,所述指代词与名词实体关系图包括名词实体节点、指代词节点、属性节点和属性值节点,节点之间通过有向连接线连接,所述预设的节点连接规则根据指代词、名词实体、指代词的属性、指代词的属性值、名词实体的属性、名词实体的属性值的关系设定;
所述指代对象确定子模块,用于根据所述指代词与名词实体关系图,从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体。
16.根据权利要求13~15中任意一项所述的文本解析装置,其特征在于,还包括:文本确定模块和文本判别模块;
所述文本确定模块,用于当所述第二文本解析失败时,确定所述第二文本为描述类文本,其中,所述描述类文本用于描述所述指定领域的对象应符合的特征;
所述文本判别模块,用于判别所述第二文本是否合规。
17.根据权利要求16所述的文本解析装置,其特征在于,所述文本判别模块包括:模型获取子模块、模型转换子模块和文本判别子模块;
所述模型获取子模块,用于获取指定领域的对象的模型;
所述模型转换子模块,用于将所述模型转换为文本化描述,获得所述模型对应的文档;
所述文本判别子模块,用于根据所述第二文本分别与所述模型对应的文档中各个句子的相似度,确定所述第二文本是否合规。
CN201910735564.2A 2019-08-09 2019-08-09 一种文本解析方法及装置 Active CN110442682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910735564.2A CN110442682B (zh) 2019-08-09 2019-08-09 一种文本解析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910735564.2A CN110442682B (zh) 2019-08-09 2019-08-09 一种文本解析方法及装置

Publications (2)

Publication Number Publication Date
CN110442682A true CN110442682A (zh) 2019-11-12
CN110442682B CN110442682B (zh) 2022-11-01

Family

ID=68434324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910735564.2A Active CN110442682B (zh) 2019-08-09 2019-08-09 一种文本解析方法及装置

Country Status (1)

Country Link
CN (1) CN110442682B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178044A (zh) * 2019-12-31 2020-05-19 中国银行股份有限公司 一种确定目标文本要素的方法及装置
CN112988776A (zh) * 2021-04-26 2021-06-18 北京泰迪熊移动科技有限公司 文本解析规则的更新方法、装置、设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6014680A (en) * 1995-08-31 2000-01-11 Hitachi, Ltd. Method and apparatus for generating structured document
US20170017635A1 (en) * 2015-07-17 2017-01-19 Fido Labs Inc. Natural language processing system and method
CN106951684A (zh) * 2017-02-28 2017-07-14 北京大学 一种医学疾病诊断记录中实体消歧的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6014680A (en) * 1995-08-31 2000-01-11 Hitachi, Ltd. Method and apparatus for generating structured document
US20170017635A1 (en) * 2015-07-17 2017-01-19 Fido Labs Inc. Natural language processing system and method
CN106951684A (zh) * 2017-02-28 2017-07-14 北京大学 一种医学疾病诊断记录中实体消歧的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
唐旭日等: "中文文本的地名解析方法研究", 《武汉大学学报(信息科学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178044A (zh) * 2019-12-31 2020-05-19 中国银行股份有限公司 一种确定目标文本要素的方法及装置
CN111178044B (zh) * 2019-12-31 2023-04-18 中国银行股份有限公司 一种确定目标文本要素的方法及装置
CN112988776A (zh) * 2021-04-26 2021-06-18 北京泰迪熊移动科技有限公司 文本解析规则的更新方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN110442682B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
Ismail et al. A review on BIM-based automated code compliance checking system
CN105528349B (zh) 知识库中问句解析的方法及设备
CN104063612B (zh) 一种隧道工程风险态势模糊评估方法及评估系统
CN112487203A (zh) 一种融入动态词向量的关系抽取系统
CN110825881A (zh) 一种建立电力知识图谱的方法
CN108376310A (zh) 建筑物火灾风险等级评估方法
CN110442682A (zh) 一种文本解析方法及装置
CN105843801A (zh) 多译本平行语料库的构建系统
CN115062208B (zh) 数据处理方法、系统及计算机设备
CN113987199B (zh) 一种规范自动解译的bim智能审图方法、系统和介质
CN109582761A (zh) 一种基于网络平台的词语相似度的中文智能问答系统方法
CN113783874A (zh) 基于安全知识图谱的网络安全态势评估方法及系统
Rajati et al. On advanced computing with words using the generalized extension principle for type-1 fuzzy sets
KR20230150723A (ko) 분류 모델 트레이닝, 의미 분류 방법, 장치, 설비 및 매체
Dawar et al. Inflationary fixed points in modal logic
CN105488270B (zh) 一种变压器结构性故障诊断多属性综合方法
CN109871540B (zh) 一种文本相似度的计算方法以及相关设备
Song et al. Improved cluster intelligent and complex optimization algorithm for power equipment CAD-assisted intelligent operation and maintenance
Borjigin et al. Semiautomated development of textual requirements: Combined NLP and multidomain semantic modeling approach
US20220179889A1 (en) Method for generating query statement, electronic device and storage medium
CN115048926A (zh) 一种实体关系抽取方法、装置、电子设备及存储介质
Lin et al. Predictive capability and maturity assessment with bayesian network
Zupanc et al. Evaluating coherence of essays using sentence-similarity networks
Moses et al. Calibration issues in development of ISO standards for fixed steel offshore structures
KR102579897B1 (ko) 건축물 회복탄력성 붕괴에 따른 중대재해 예방 시스템 및 이를 이용한 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant