CN107608949A

CN107608949A - 一种基于语义模型的文本信息抽取方法及装置

Info

Publication number: CN107608949A
Application number: CN201710959738.4A
Authority: CN
Inventors: 李德彦; 晋耀红; 席丽娜
Original assignee: Beijing Shenzhou Taiyue Software Co Ltd
Current assignee: Dingfu Intelligent Technology Co., Ltd
Priority date: 2017-10-16
Filing date: 2017-10-16
Publication date: 2018-01-19
Anticipated expiration: 2037-10-16
Also published as: CN107608949B

Abstract

本申请公开了一种基于语义模型的文本信息抽取方法及装置，该方法包括获取待抽取文本信息；根据抽取表达式和抽取表达式对应的语义模型，对待抽取文本信息进行信息抽取，得到目标信息,抽取表达式包括词性抽取表达式、时间抽取表达式和/或规则抽取表达式，其中，词性抽取表达式对应的语义模型为统计语义模型，时间抽取表达式对应的语义模型为时间语义概念模型，规则抽取表达式对应的语义模型为规则语义模型。本申请可根据不同的抽取需求，设定相应的抽取表达式和语义模型，对该待抽取文本信息进行信息抽取，工作人员无需逐个编写复杂的正则表达式，降低生成难度，提高匹配的灵活度，因此，该方法不仅可以提高抽取效率，并且降低工作人员的工作量。

Description

一种基于语义模型的文本信息抽取方法及装置

技术领域

本申请涉及文本处理技术领域，尤其涉及一种基于语义模型的文本信息抽取方法及装置。

背景技术

随着互联网信息的爆炸式增长，各种文档的内容越发丰富多彩。由于人们所需要的信息被隐藏在各种样式的内容里而愈发难以被发现，因此，人们需要借助信息抽取手段，以在相关的文本中找到所需信息。

目前信息抽取方法主要为基于HTML结构的抽取方法，其利用HTML解析器对HTML文本信息中的字符逐个扫描，解析HTML文本信息的结构层次关系，并为相同的HTML标签从零开始依次编号，最终形成HTML文本信息对应的DOM树，再对DOM树的槽点设置抽取表达式，根据抽取表达式对HTML文本信息进行抽取，得到抽取结果。其中，抽取表达式包括单槽点抽取表达式和多槽点抽取表达式，单槽点抽取表达式是生成一个孤立的信息点的抽取表达式，即生成一个对HTML文本信息中的局部信息点进行抽取的规则；多槽点抽取表达式是生成多个相互联系的信息点进行抽取的规则，即生成一个HTML文本信息中，多个结构相似的信息块中所有相关联的信息点进行抽取的规则。

但是，对于抽取一些复杂的文本语句或者抽取特定的词语，例如特定词性的词语和时间词语等，无论是单槽点抽取表达式，还是多槽点抽取表达式均需包括一条或多条复杂的正则表达式，不仅生成难度大，匹配灵活度低，导致抽取效率低下，并且极大地增加工作人员的工作量。

发明内容

本申请提供了一种基于语义模型的文本信息抽取方法及装置，以解决对于抽取一些复杂的文本语句或者抽取特定的词语，例如特定词性的词语和时间词语等，现有的抽取表达式均需包括一条或多条复杂的正则表达式，不仅导致生成难度大，匹配灵活度低，从而以致抽取效率低下，而且增加工作人员的工作量的问题。

第一方面，本申请提供了一种基于语义模型的文本信息抽取方法包括如下步骤：

获取待抽取文本信息；

根据抽取表达式和所述抽取表达式对应的语义模型，对所述待抽取文本信息进行信息抽取，得到目标信息，所述抽取表达式包括词性抽取表达式、时间抽取表达式和/或规则抽取表达式，其中，所述词性抽取表达式对应的语义模型为统计语义模型，所述时间抽取表达式对应的语义模型为时间语义概念模型，所述规则抽取表达式对应的语义模型为规则语义模型。

第二方面，本申请还提供了一种基于语义模型的文本信息抽取装置包括：

获取模块，用于获取待抽取文本信息；

处理模块，用于根据抽取表达式和所述抽取表达式对应的语义模型，对所述待抽取文本信息进行信息抽取，得到目标信息，所述抽取表达式包括词性抽取表达式、时间抽取表达式和/或规则抽取表达式，其中，所述词性抽取表达式对应的语义模型为统计语义模型，所述时间抽取表达式对应的语义模型为时间语义概念模型，所述规则抽取表达式对应的语义模型为规则语义模型。

由以上技术方案可知，本申请提供一种基于语义模型的文本信息抽取方法及装置，该方法可根据不同的抽取需求，设定相应的抽取表达式和语义模型，对该待抽取文本信息进行信息抽取，工作人员无需逐个编写复杂的正则表达式，降低生成难度，提高匹配的灵活度，因此，该方法不仅可以提高抽取效率，并且降低工作人员的工作量。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供一种基于语义模型的文本信息抽取方法一实施例的方法流程图；

图2为本申请提供一种基于语义模型的文本信息抽取方法另一实施例的方法流程图；

图3为图1中步骤12一实施例的方法流程图；

图4为图1中步骤12另一实施例的方法流程图；

图5为图1中步骤12又一实施例的方法流程图；

图6为本申请提供一种基于语义模型的文本信息抽取方法又一实施例的方法流程图；

图7为本申请提供的一种基于语义模型的文本信息抽取方法的结构示意图。

具体实施方式

如图1所示，本申请一个实施例提供一种基于语义模型的文本信息抽取方法,包括：

步骤11：获取待抽取文本信息。

待抽取文本信息可以是doc格式文档、txt格式的文本文档或html文档等。待抽取文本信息可以是文字，也可以是数字，还可以是文字或数字的组合，本实施例对此不加以限制。

步骤12：根据抽取表达式和所述抽取表达式对应的语义模型，对所述待抽取文本信息进行信息抽取，得到目标信息，所述抽取表达式包括词性抽取表达式、时间抽取表达式和/或规则抽取表达式，其中，所述词性抽取表达式对应的语义模型为统计语义模型，所述时间抽取表达式对应的语义模型为时间语义概念模型，所述规则抽取表达式对应的语义模型为规则语义模型。

工作人员可根据需抽取的内容，预先设定好相对应的抽取表达式，例如，工作人员如果需抽取词性相关的内容，则可预先设定好词性抽取表达式；如果需抽取时间相关的内容，则可预先设定好时间抽取表达式；如果需抽取内容中对应的正则表达式中的一部分已在规则语义模型中预先存储，则可预先设定好规则抽取表达式。由于不同的抽取表达式对应不同的语义模型，利用抽取表达式和与其对应的语义模型对待抽取文本信息进行处理，不仅工作人员无需逐个编写复杂的正则表达式，降低正则表达式的生成难度，而且可根据不同的抽取内容，灵活使用抽取表达式和语义模型，提高匹配的灵活度，提高抽取效率。

在上述实施例中，待抽取文本信息通常为整篇文本，对整篇文本进行信息抽取，对于一般常用词，抽取结果可能繁多，用户还需在抽取结果中寻找所需抽取信息。

在本实施例中，可预先对文本的待抽取区域限定，然后再进行信息抽取，以提高抽取结果的准确性，如图2所示，本实施例的步骤11包括如下步骤：

步骤21：获取文本和所述文本对应的定位表达式，其中，所述定位表达式包括类型标签和概念，其中，所述类型标签分为引用类标签和非引用类标签。

文本包括获取来自用户生成内容中的文本信息，优选地，包括获取来自新闻渠道、微博渠道和论坛渠道的文本信息，将这些渠道中的文本内容作为文本信息。其中，新闻渠道包含新浪、网易、搜狐、腾讯和《今日头条》；微博渠道包含新浪微博；论坛渠道包含天涯、百度贴吧，知乎。对于新闻渠道，用新闻的标题和报道内容作为文本信息；对于论坛渠道，把帖子的文本内容作为文本信息。对于微博渠道，将微博帖子的文本内容作为文本信息。通过如上方法获取的文本，能很好的获得新的文本。

根据不同文本的抽取需求，可以获取不同定位表达式。定位表达式分为前置定位表达式和后置定位表达式，前置定位表达式中的概念用于得到文本中的起始词，后置定位表达式中的概念用于得到文本中的结束词，定位表达式中可以同时含有前置定位表达式和后置定位表达式，也可仅包含前置定位表达式和后置定位表达式中的一个。如果定位表达式中同时包含前置定位表达式和后置定位表达式，即表示需要定位的区域为与前置定位表达式中的概念相匹配的词语至与后置定位表达式中的概念相匹配的词语之间的部分。如果定位表达式中仅包含前置定位表达式，即表示需要定位的区域为与前置定位表达式的概念相匹配的词语至该文本最末端的词语之间部分。如果定位表达式中仅包含后置定位表达式，即表示需要定位的区域为该文本最开始的词语至与后置定位表达式的概念相匹配的词语之间的部分。

定位表达式包括类型标签和概念，如c_货币单位。类型标签通常用字母表示，例如k、e和c，其中，k代表关键词类型；e代表业务要素类型；c代表通用词语类型。k所代表的类型，表示其后面的概念可以直接用来进行匹配；e和c所代表的类型必须需要预先建模或引用语义模型中的概念值表达式列表进行匹配，即k为非引用类标签，e和c为引用类标签。

由此可知，定位表达式用来在文本中划分出来固定的抽取区域，以达到精准抽取的目的，可满足不同的抽取需求，并且抽取结果更加精确。

步骤22：如果所述类型标签为引用类标签，判断所述引用类标签对应的概念是否有对应的概念值表达式列表；如果所述概念有对应的概念值表达式列表，则执行步骤23；如果所述概念没有对应的概念值表达式列表，则执行步骤25。

由于不同的类型标签对应不同的匹配方式，对于引用类标签需要预先建模或者引用语义模型中的概念值表达式列表进行匹配，因此需要判断引用类标签对应的概念是否有对应的概念值表达式列表。

概念值表达式列表可通过现有的语义模型建设平台进行构建，也可直接引用已有的概念值表达式列表。概念值表达式列表中的概念值表达式可以是特征词，可以是正则表达式等。正则表达式是一种正规的描述字符串模式的表达式，可以用来进行文本匹配，具体为在给定的文本信息中查找与给定的正则表达式相匹配的部分。正则表达式由一些普通字符和元字符组成，普通字符包括大小写的字母和数字，元字符具有特殊的含义。

如果所述概念没有对应的概念值表达式列表，则跳转至步骤25。

步骤23：获取所述概念值表达式列表。

步骤24：将所述概念值表达式列表中的每个概念值表达式与所述文本进行匹配，得到匹配结果。

如果所述概念值表达式列表中任意一个概念值表达式与所述文本匹配成功，则所述概念值表达式列表对应所述定位表达式的概念匹配成功。

如果所述概念值表达式列表中所有概念值表达式与所述文本匹配失败，则所述概念值表达式列表对应所述定位表达式的概念匹配失败。

具体匹配规则在此不做限定，可采用现有的任何匹配规则进行匹配，本实施例可采用模式匹配法，即从文本的第一个字符起与概念值表达式列表中的任意一个概念值表达式的第一个字符进行匹配，若相匹配，则继续对字符进行后续的比较，若不匹配，则从文本的第二个字符起与该概念表达式的第一个字符重新比较，直至该概念表达式的每个字符依次与文本中的一个连续的字符序列相等为止，则视为匹配成功，否则匹配失败。如果匹配失败，再重新获取第二个概念值表达式进行上述匹配过程，直至有概念值表达式与第一文本信息匹配成功，或者将所有概念值表达式都进行完匹配过程为止。

除了上述的匹配规则，对于概念值表达式列表中的具体的特征词的匹配，还可采用模糊语义匹配，例如，在假设文本信息中含有词语“纸巾”，而在概念值表达式列表中有“抽纸”，则根据模糊语义匹配原则，确定“纸巾”与“抽纸”匹配成功，并将“纸巾”作为新的概念值表达式存储到概念值表达式列表中，以丰富概念值表达式列表，提高匹配的准确性。

对于正则表达式的匹配，两个字符之间可采用任何符合数量要求的字符均可视为匹配成功，例如文本信息中存在“张三，男”、“张小三，男”或者“张美丽，女”，均可视为与正则表达式“.{2,3}，(男|女)”匹配成功。

步骤25：如果所述类型标签为非引用类标签，则将所述非引用类标签对应的概念与所述文本信息进行匹配,得到匹配结果。

此步骤的匹配过程可参见步骤24的特征词的匹配过程，在此不再赘述。

步骤26：根据所述匹配结果，确定起始词和结束词。

将文本中与前置定位表达式相匹配的词语确定为起始词，将文本中与后置定位表达式相匹配的词语确定为结束词。

步骤27：根据所述起始词和结束词，确定所述文本待抽取区域。

如果定位表达式同时含有前置定位表达式和后置定位表达式，且匹配之后，文本中仅存在一个起始词和一个结束词，则将起始词语结束词之间的区域确定为待抽取区域。

如果定位表达式同时含有前置定位表达式和后置定位表达式，且匹配之后，文本中有多个起始词和一个结束词，且该结束词位于所有起始词之后，则将该文本划分出多个抽取区域，即第一个起始词到第二个起始词之间为第一抽取区域，第二个起始词到第三个起始词为第二区域，以此类推，直至最后一个起始词到结束词之间为最后一个抽取区域。

如果定位表达式同时含有前置定位表达式和后置定位表达式，且匹配之后，文本中有多个起始词和一个结束词，且该结束词位于第一起始词和最后一个起始词之间，则将该文本划分出多个抽取区域，即第一个起始词到第二个起始词之间为第一抽取区域，第二个起始词到第三个起始词为第二区域，以此类推，直至最靠近结束词并在结束词之前的起始词到结束词之间为最后一个抽取区域。

如果定位表达式同时含有前置定位表达式和后置定位表达式，且匹配之后，文本中有多个起始词和一个结束词，且该结束词位于第一个起始词之前，则将该文本无抽取区域。

如果定位表达式同时含有前置定位表达式和后置定位表达式，且匹配之后，文本中有多个起始词，没有结束词，则将该文本划分出多个抽取区域，即第一个起始词到第二个起始词之间为第一抽取区域，第二个起始词到第三个起始词为第二区域，以此类推，直至最后一个起始词到整篇文本的结束词为最后一个区域。

如果定位表达式同时含有前置定位表达式和后置定位表达式，且匹配之后，文本中有多个结束词，没有起始词，则将该文本划分出多个抽取区域，即该文本的起始词到第一个结束词之间为第一抽取区域，第一个结束词到第二个结束词为第二区域，以此类推，直至靠近最后一个结束词的结束词到最后一个结束词为最后一个区域。

如果定位表达式同时含有前置定位表达式和后置定位表达式，且匹配之后，文本中不存在起始词和结束词，则该文本没有待抽取区域。

如果定位表达式仅含有前置定位表达式，且匹配后，文本中仅有一个起始词，则将该起始词到整篇文本的结束词之间的区域确定为抽取区域。

如果定位表达式仅含有前置定位表达式，且匹配之后，文本中有多个起始词，则将该文本划分出多个抽取区域，即第一个起始词到第二个起始词之间为第一抽取区域，第二个起始词到第三个起始词为第二区域，以此类推，直至最后一个起始词到整篇文本的结束词为最后一个区域。

如果定位表达式仅含有前置定位表达式，且匹配后，文本中没有起始词，则该文本没有待抽取区域。

如果定位表达式仅含有后置定位表达式，且匹配后，文本中仅有一个结束词，则将该文本的起始词到结束词之间的区域确定为抽取区域。

如果定位表达式仅含有后置定位表达式，且匹配之后，文本中有多个结束词，则将该文本划分出多个抽取区域，即该文本的起始词到第一个结束词之间为第一抽取区域，第一个结束词到第二个结束词为第二区域，以此类推，直至靠近最后一个结束词的结束词到最后一个结束词为最后一个区域。

如果定位表达式仅含有后置定位表达式，且匹配后，文本中没有结束词，则该文本没有待抽取区域。

步骤28：根据所述文本待抽取区域，得到待抽取文本信息。

由以上技术方案可知，本实施例可根据抽取需要，对文本进行过滤，预先定位文本的待抽取区域，以使抽取结果更加准确。

如图3所示，本申请提供一实施例，当抽取表达式包括词性抽取表达式时，上述实施例中的步骤12包括如下步骤：

步骤31：利用词性抽取表达式，调用所述词性抽取表达式对应的统计语义模型。

统计语义模型为条件随机场(Conditional Random Field，CRF)模型，条件随机场模型是在最大熵模型和隐马尔可夫模型的基础上，提出的一种判别式概率无向图学习模型，是一种用于标注和切分有序数据的条件概率模型，现已应用于自然语言处理领域。

词性抽取表达式包括词性因子和词性类型标识，词性类型标识包括动词类标识、量词类标识和名词类标识，其中名词类标识包含机构、人名和地名三种命名实体。词性因子由[nature]表示，动词类标识由v表示，量词类标识由m表示，人名标识由nr表示，地名标识由ns表示，机构标识由nt表示。

步骤32：利用所述统计语义模型对所述待抽取文本信息进行切词处理，得到分词集。

步骤33：利用所述统计语义模型对所述分词集的每个分词进行词性标注，得到每个分词对应的词性标签。

利用统计语义模型进行分词和词性标注。例如，对收集到的信息进行人工标注，标注后得到训练数据并编写模板文件，由此训练出CRF模型，然后进行模型训练，所述模型训练是通过CRF++工具实现的。对前述待抽取文件信息进行分词(标注字的词位信息，由字构词)以及词性标注(标注分词的词性，如：名词、动词、助词等)。

步骤34：将所述词性抽取表达式与每个所述词性标签进行匹配。

词性抽取表达式包括词性因子和词性类型标识，词性类型标识可由抽取需求而进行设置，例如工作人员需抽取待抽取文本信息中的机构名称、人名、地名、动词和量词，则词性抽取表达式可设置为[nature]v|m|nt|nr|ns,其中nature代表词性因子，v代表动词，m代表量词，nt代表机构名称，nr代表人名，ns代表地名。如果仅需抽取动词，则可将词性抽取表达式设置为[nature]v。

对于需抽取待抽取文本信息的特定区域的名词和动词等，则可在上述词性抽取表达式上添加定位表达式，例如工作人员需提取文本中“申请提额”和“货币单位”之间的文本中的量词，则可将词性抽取表达式设置为e_申请提额@[nature]v@c_货币单位，其中，“e_申请提额”为前置定位表达式，“c_货币单位”为后置定位表达式。

步骤35：抽取与所述词性抽取表达式相匹配的词性标签对应的分词，得到目标信息。

相比于现有技术中，通过正则表达式进行匹配，再将与正则表达式相匹配的词语抽取出来，正则表达式是基于特定词语进行预测的思想进行匹配，例如用户需抽取人名，即需编写“.{2,3}，(男|女)”的正则表达式，即在性别之前出现的两三个字符可能为姓名，但是，由于不同人撰写文章的习惯不同，尤其是针对贴吧等，撰写习惯相对随意的待抽取信息，若要准确抽取出所需信息，编写的正则表达式会极其复杂，不仅增加编写的工作量，还增加计算机运算时间，而本实施例利用统计语义模型对待抽取信息进行切词及词性标注，再由词性抽取表达式进行匹配，适用于各种撰写风格的待抽取文本信息，无需对需抽取的信息出现的位置进行预测，亦无需复杂的正则表达式，不仅提高抽取效率，而且还能提高抽取结果的准确性。

如图4所示，本申请提供另一实施例，当抽取表达式包括时间抽取表达式时，上述实施例中的步骤12包括如下步骤：

步骤41：利用时间抽取表达式，调取所述时间抽取表达式对应的时间语义概念模型。

时间抽取表达式包括时间因子和时间标识，其中，时间因子由[time]表示，时间标识可用来表示提取时间词语的具体形式，例如，需抽取年月日相关的词，时间标识可用yyyy-MM-dd的形式表现。

具体的时间抽取表达式的设置可根据实际抽取需求进行设置，例如，工作人员需抽取“2015年10月1日”的文本信息，那么时间抽取表达式可设定为[time]2015-10-01即可。由此可以看出，本实施例提供的时间抽取表达式相较于现有技术中的正则表达式，简化许多，无需把所有形式的时间表现形式(如仅含文字或数字，以及文字和数字的组合)录入，不仅很大程度降低表达式的生成难度，提高运算速度和抽取效率，还有效的降低工作人员的工作量。

同样的，对于需抽取待抽取文本信息的特定区域的时间，则可在上述时间抽取表达式上添加定位表达式，例如，工作人员需提取文本中关于“毕业”之后出现的“2015年10月1日”的相关信息，则可将时间抽取表达式设置为k_毕业于@[[time]2015-10-01@，其中，“k_毕业于”为前置定位表达式，该时间抽取表达式中不包含后置定位表达式。

步骤42：将所述时间语义概念模型中第一正则表达式集与所述待抽取文本信息进行模式匹配，所述第一正则表达式集包括至少一个与所述时间抽取表达式相对应的第一正则表达式。

第一正则表达式集内含有一个或一个以上与时间标识相匹配的正则表达式，其中，既可包含由数字形式表示时间的正则表达式，又可含有文字形式表示时间的正则表达式，然后，通过模式匹配，对待抽取文本信息中进行匹配处理。具体的模式匹配的步骤可参见步骤24的描述，在此不再赘述。

步骤43：抽取与所述第一正则表达式集相匹配的信息，得到目标信息。

由此可见，相对于现有技术，上述实施例仅需编辑时间表达式即可，再利用时间表达式调用时间语义概念模型，利用时间语义概念模型对待抽取文本信息进行抽取处理，因此，本实施例无需逐个编写复杂的正则表达式，降低生成难度，提高匹配的灵活度和抽取效率，并且降低工作人员的工作量。

如图5所示，本申请提供又一实施例，当抽取表达式包括规则抽取表达式时，上述实施例中的步骤12包括如下步骤：

步骤51：利用规则抽取表达式，调取所述规则表达式对应的规则语义模型，其中，所述规则抽取表达式包括概念标识和第二正则表达式，所述规则语义模型中包括与所述概念标识对应的概念值表达式列表。

规则抽取表达式包括概念标识和第二正则表达式，如“<c_省、直辖市级地名>.{0,9}人[^民]”。概念标识包括引用类标签和相应的概念，如<c_省、直辖市地名>，其中，c表示通用词语类型的引用类标签，省、直辖市地名表示相应的概念。

具体的规则抽取表达式的设置可根据实际抽取需求进行设置，例如，工作人员需抽取关于提及“省市人民”的文本信息，那么规则抽取表达式可设定为<c_省、直辖市级地名>.{0,9}人[^民]。由此可以看出，本实施例提供的规则抽取表达式相较于现有技术中的正则表达式，简化许多，无需将所有的省市名称进行录入，不仅很大程度降低表达式的生成难度，提高运算速度和抽取效率，还有效的降低工作人员的工作量。

同样的，可在上述规则抽取表达式上添加定位表达式，以抽取特定区域的相关信息，例如工作人员需抽取文本中关于“籍贯”之后出现的“省市人民”的相关信息，则可将规则抽取表达式设置为k_籍贯@<c_省、直辖市级地名>.{0,9}人[^民]@，其中，“k_籍贯”为前置定位规则，该规则抽取表达式中不包含后置定位表达式。

规则语义模型中包含与概念标识相对应的概念值表达式列表，如<c_省、直辖市地名>这个概念标识相对应的概念值表达式列表中可包含{北京，沈阳，广东|山东|江苏|河南|上海|河北|浙江|香港|陕西|湖南|重庆|福建|天津|云南|四川|广西|安徽|海南|江西|湖北|山西|辽宁|台湾|黑龙江|内蒙古|澳门|贵州|甘肃|青海|新疆|西藏|吉林|宁夏|哈尔滨}。

步骤52：将与所述概念标识对应的概念值表达式列表中每个概念值表达式分别与第二正则表达式合并，得到第二正则表达式集。

以上述的例子为例，生成的第二正则表达式集为{北京.{0,9}人[^民]，沈阳.{0,9}人[^民]，(广东|山东|江苏|河南|上海|河北|浙江|香港|陕西|湖南|重庆|福建|天津|云南|四川|广西|安徽|海南|江西|湖北|山西|辽宁|台湾|黑龙江|内蒙古|澳门|贵州|甘肃|青海|新疆|西藏|吉林|宁夏|哈尔滨).{0,9}人[^民]}

步骤53：利用所述第二正则表达式集与所述待抽取信息进行匹配。

具体的模式匹配的步骤可参见步骤24的描述，在此不再赘述。

步骤54：抽取与所述第二正则表达式集相匹配的信息，得到目标信息。

由此可见，相对于现有技术，上述实施例仅需编辑规则抽取表达式即可，通过规则表达式调取规则语义模型，通过其中的概念值表达式列表中的每个概念值表达式与抽取表达式中的第二正则表达式合并，得到第二正则表达式集，然后再进行抽取过程，因此，工作人员仅需预先编辑好规则抽取表达式即可，无需在每次进行抽取工作时都要逐个进行编写复杂的正则表达式，降低生成难度，提高匹配的灵活度和抽取效率，并且降低工作人员的工作量。

如图6所示，本申请提供另一实施例，上述实施例中得到所述目标信息之后还包括：

步骤61：根据预设的计算规则，计算所述目标信息与起始词和/或结束词之间的字符数。

步骤62：如果所述字符数不大于预设字符数，则抽取满足位置关系的目标信息。

根据不同的抽取需求，可设置不同的计算规则，例如，以如下待抽取信息为例，

谷歌于2013年9月3日宣布以71.7亿美元的交易额收购诺基亚。

假设需要抽取的信息为距离“谷歌”两个字符以下的时间信息，需设置时间规则表达式以及前置定位表达式，并设置预设字符数为2，具体得到目标信息的过程可参见上述实施例，然后得到目标信息“2013年9月3日”，并计算该目标信息距离起始词“谷歌”的一个字符，小于预设的字符数，则将目标信息“2013年9月3日”再次进行抽取，得到更加精确的抽取结果。

上述实施例可根据抽取需求，利用预设的计算规则，计算目标信息与起始词之间的字符数、目标信息与结束词之间的字符数或目标信息分别距离起始词和结束词之间的字符数，提取满足预设字符数条件的目标信息，以进一步精确的抽取所需信息。

本申请提供另一实施例，上述实施例中得到所述目标信息之后还包括：

根据预设的输出规则，输出所述目标信息、起始词和/或结束词。

本实施例可将目标信息连通起始词和/或结束词一起输出，方便工作人员查看。

第二方面，如图7所示，本申请提供一种基于语义模型的文本信息抽取装置包括：

获取模块71，用于获取待抽取文本信息；

处理模块72，用于根据抽取表达式和所述抽取表达式对应的语义模型，对所述待抽取文本信息进行信息抽取，得到目标信息；所述抽取表达式包括词性抽取表达式、时间抽取表达式和/或规则抽取表达式，其中，所述词性抽取表达式对应的语义模型为统计语义模型，所述时间抽取表达式对应的语义模型为时间语义概念模型，所述规则抽取表达式对应的语义模型为规则语义模型。

综上所述，根据抽取需求的不同，工作人员可根据抽取需求预先设定好相对应的抽取表达式，例如，工作人员如果需抽取词性相关的内容，则可预先设定好词性抽取表达式；如果需抽取时间相关的内容，则可预先设定好时间抽取表达式；如果需抽取内容中对应的正则表达式中的一部分已在规则语义模型中预先存储，则可预先设定好规则抽取表达式。利用抽取表达式调取相应的语义模型，然后同时利用抽取表达式和语义模型对待抽取文本信息进行信息抽取，无需工作人员逐个编写复杂的正则表达式，降低正则表达式的生成难度，降低对计算机硬件设备的要求，而且还可以由不同的抽取需求，灵活使用抽取表达式和对应的语义模型，提高匹配的灵活度，提高抽取效率。具体的实施方式可参考方法实施例中具体描述，不在此进行赘述。

本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请实施例中的技术方案本质上或者或对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以似的一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分可相互参见即可，每个实施例重点说明的都是与其他实施例的不同之处，尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种基于语义模型的文本信息抽取方法，其特征在于，所述方法包括：

获取待抽取文本信息；

2.如权利要求1所述的方法，其特征在于，所述获取待抽取文本信息包括：

获取文本和所述文本对应的定位表达式；

将所述定位表达式与所述文本进行匹配，得到匹配结果；

根据所述匹配结果，确定起始词和结束词；

根据所述起始词和结束词，确定所述文本的待抽取区域；

根据所述待抽取区域，得到待抽取文本信息。

3.如权利要求2所述的方法，其特征在于，所述定位表达式包括类型标签和概念，其中，所述类型标签分为引用类标签和非引用类标签；

所述将所述定位表达式与所述文本进行匹配包括：

如果所述类型标签为引用类标签，判断所述引用类标签对应的概念是否有对应的概念值表达式列表；

如果所述概念有对应的概念值表达式列表，则获取所述概念值表达式列表；

将所述概念值表达式列表中的每个概念值表达式与所述文本进行匹配；

如果所述概念值表达式列表中任意一个概念值表达式与所述文本匹配成功，则所述概念值表达式列表对应所述定位表达式的概念与所述文本匹配成功；

如果所述概念值表达式列表中所有概念值表达式与所述文本匹配失败，则所述概念值表达式列表对应所述定位表达式的概念与所述文本匹配失败。

4.如权利要求3所述的方法，其特征在于，所述将所述定位表达式与所述文本进行匹配还包括：

如果所述类型标签为非引用类标签，则将所述非引用类标签对应的概念与所述文本进行匹配。

5.如权利要求1-4任一项所述的方法，其特征在于，当所述抽取表达式包括词性抽取表达式时，所述根据抽取表达式和所述抽取表达式对应的语义模型，对所述待抽取文本信息进行信息抽取，得到目标信息包括：

利用词性抽取表达式，调用所述词性抽取表达式对应的统计语义模型；

利用所述统计语义模型对所述待抽取文本信息进行切词处理，得到分词集；

利用所述统计语义模型对所述分词集的每个分词进行词性标注，得到每个分词对应的词性标签；

将所述词性抽取表达式与每个所述词性标签进行匹配；

抽取与所述词性抽取表达式相匹配的词性标签对应的分词，得到目标信息。

6.如权利要求1-4任一项所述的方法，其特征在于，当所述抽取表达式包括时间抽取表达式时，所述根据抽取表达式和所述抽取表达式对应的语义模型，对所述待抽取文本信息进行信息抽取，得到目标信息的步骤包括：

利用时间抽取表达式，调取所述时间抽取表达式对应的时间语义概念模型；

将所述时间语义概念模型中第一正则表达式集与所述待抽取文本信息进行模式匹配，所述第一正则表达式集包括至少一个与所述时间抽取表达式相对应的第一正则表达式；

抽取与所述时第一正则表达式集相匹配的信息，得到目标信息。

7.如权利要求1-4任一项所述的方法，其特征在于，当所述抽取表达式包括规则抽取表达式时，其中，所述规则抽取表达式包括概念标识和第二正则表达式，对所述待抽取文本信息进行信息抽取，得到目标信息的步骤包括；

利用规则抽取表达式，调取所述规则抽取表达式对应的规则语义模型，所述规则语义模型中包括与所述概念标识对应的概念值表达式列表；

将与所述概念标识对应的概念值表达式列表中每个概念值表达式分别与第二正则表达式合并，得到第二正则表达式集；

利用所述第二正则表达式集与所述待抽取信息进行匹配；

抽取与所述第二预设正则表达式集相匹配的信息，得到目标信息。

8.如权利要求2-4任一项所述的方法，其特征在于，所述得到目标信息之后还包括：

根据预设的计算规则，计算所述目标信息与起始词和/或终止词的字符数；

如果所述字符数不大于预设字符数，则抽取满足位置关系的目标信息。

9.如权利要求2-4任一项所述的方法，其特征在于，所述得到目标信息之后还包括：

10.一种基于语义模型的文本信息抽取装置，其特征在于，所述装置包括：

获取模块，用于获取待抽取文本信息；