一种信息处理的方法及装置
技术领域
本发明涉及信息提取及文本挖掘领域,特别涉及一种信息处理的方法及装置。
背景技术
大部分企业在运作时都会产生大量的企业公文,企业的企业公文中包括大量有助于了解企业的有用信息。为了便于用户快速了解企业,可以采用计算机从企业公文中提取有用信息并显示给用户。
企业公文在撰写时常常使用自然语言进行撰写。在撰写时为了避免文章中词汇的重复使用,使文章更加简洁、紧凑,在写作中指示代词会被频繁使用。例如,某公司的企业公文中可能大量使用本公司这个指示代词来代替该公司的公司名称,由于公司名称包括的文字数目往往较多,使用本公司代替公司名称,使文章变的简洁、紧凑。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
由于企业公文包括大量的指示代词,这样计算机在对企业公文进行信息提取时,由于不知道指示代词指代的对象是什么,给计算机对企业公文的分析增加难度,降低信息提取的效率和准确性。
发明内容
为了提高信息提取的效率和准确性,本发明提供了一种信息处理的方法及装置。所述技术方案如下:
第一方面,提供了一种信息处理的方法,所述方法包括:
通过分词系统和实体识别系统标记非结构化文本文件中包括的指示代词和实体机构的机构名称;
获取所述指示代词属于的代词分类;
根据所述代词分类和被标记的所述实体机构的机构名称,确定所述指示代词所指代的实体机构的机构名称;
在所述非结构化文本文件中将所述指示代词替换为所述指示代词所指代的实体机构的机构名称。
可选的,所述获取所述指示代词属于的代词分类,包括:
确定所述指示代词所属于的指示代词集合,所述指示代词集合包括预设的至少一个指示代词;
根据所述指示代词集合的集合标识,从集合标识与代词分类的对应关系中获取所述指示代词属于的代词分类。
可选的,所述根据所述代词分类和被标记的所述实体机构的机构名称,确定所述指示代词所指代的实体机构的机构名称,包括:
当所述代词分类为预指类全局有效代词时,在所述非结构化文本文件中查找位于所述指示代词之后的第一个被标记的机构名称并确定为所述指示代词所指代的实体机构的机构名称;
当所述代词分类为回指类局部有效代词时,在所述非结构化文本文件中查找位于所述指示代词之前的第一个被标记的机构名称并确定为所述指示代词所指代的实体机构的机构名称;
当所述代词分类为回指类全局有效代词时,在所述非结构化文本文件中确定首次出现所述指示代词的位置,查找位于所述位置之前的第一个被标记的机构名称并确定为所述指示代词所指代的实体机构的机构名称。
可选的,所述通过分词系统和实体识别系统标记非结构化文本文件中包括的指示代词和实体机构的机构名称之后,还包括:
根据预设的规则表达式识别所述非结构化文本文件包括的实体机构的简称和全称,所述规则表达式定义了实体机构的简称对应的句式结构;
将所述非结构化文本文件包括的所述实体机构的简称替换为所述实体机构的全称。
可选的,所述根据预设的规则表达式识别所述非结构化文本文件包括的实体机构的简称和全称,包括:
从所述非结构化文本文件中识别出所述预设的规则表达式所定义的句式结构的字符串,所述字符串包括实体机构的简称;
从所述非结构化文本文件中查找位于所述字符串之前的第一个被标记的机构名称并确定为所述实体机构的机构名称为所述实体机构的全称。
第二方面,提供了一种信息处理的装置,所述装置包括:
识别模块,用于通过分词系统和实体识别系统标记非结构化文本文件中包括的指示代词和实体机构的机构名称;
获取模块,用于获取所述指示代词属于的代词分类;
确定模块,用于根据所述代词分类和被标记的所述实体机构的机构名称,确定所述指示代词所指代的实体机构的机构名称;
替换模块,用于在所述非结构化文本文件中将所述指示代词替换为所述指示代词所指代的实体机构的机构名称。
可选的,所述获取模块包括:
第一确定单元,用于确定所述指示代词所属于的指示代词集合,所述指示代词集合包括预设的至少一个指示代词;
获取单元,用于根据所述指示代词集合的集合标识,从集合标识与代词分类的对应关系中获取所述指示代词属于的代词分类。
可选的,所述确定模块包括:
第二确定单元,用于当所述代词分类为预指类全局有效代词时,在所述非结构化文本文件中查找位于所述指示代词之后的第一个被标记的机构名称并确定为所述指示代词所指代的实体机构的机构名称;
第三确定单元,用于当所述代词分类为回指类局部有效代词时,在所述非结构化文本文件中查找位于所述指示代词之前的第一个被标记的机构名称并确定为所述指示代词所指代的实体机构的机构名称;
第四确定单元,用于当所述代词分类为回指类全局有效代词时,在所述非结构化文本文件中确定首次出现所述指示代词的位置,查找位于所述位置之前的第一个被标记的机构名称并确定为所述指示代词所指代的实体机构的机构名称。
可选的,
所述识别模块,还用于根据预设的规则表达式识别所述非结构化文本文件包括的实体机构的简称和全称,所述规则表达式定义了实体机构的简称对应的句式结构;
所述替换模块,还用于将所述非结构化文本文件包括的所述实体机构的简称替换为所述实体机构的全称。
可选的,所述识别模块包括:
识别单元,用于从所述非结构化文本文件中识别出所述预设的规则表达式所定义的句式结构的字符串,所述字符串包括实体机构的简称;
查询标记单元,用于从所述非结构化文本文件中查找位于所述字符串之前的第一个被标记的机构名称并确定为所述实体机构的机构名称为所述实体机构的全称。
第三方面,提供了一种计算机可读存储介质,存储计算机程序,包括:
用于通过分词系统和实体识别系统标记非结构化文本文件中包括的指示代词和实体机构的机构名称的指令;
用于获取所述指示代词属于的代词分类的指令;
用于根据所述代词分类和被标记的所述实体机构的机构名称,确定所述指示代词所指代的实体机构的机构名称的指令;
用于在所述非结构化文本文件中将所述指示代词替换为所述指示代词所指代的实体机构的机构名称的指令。
第四方面,提供了一种计算程序产品,所述计算机程序产品包括在所述计算机可读存储介质中存储的所述计算机程序,并且所述计算程序通过处理器进行加载来实现如下的方法,包括:
通过分词系统和实体识别系统标记非结构化文本文件中包括的指示代词和实体机构的机构名称;
获取所述指示代词属于的代词分类;
根据所述代词分类和被标记的所述实体机构的机构名称,确定所述指示代词所指代的实体机构的机构名称;
在所述非结构化文本文件中将所述指示代词替换为所述指示代词所指代的实体机构的机构名称。
本发明提供的技术方案的有益效果是:
通过标记非结构化文本文件中包括的指示代词和实体机构的机构名称,获取标记的指示代词属于的代词分类,根据该代词分类和被标记的实体机构的机构名称,确定该指示代词所指代的实体机构的机构名称,在非结构化文本文件中将该指示代词替换为该指示代词所指代的实体机构的机构名称。由于将非结构化文本文件中的每个指示代词替换为各自所指代的实体机构的机构名称,减少了对非结构化文本文件的分析难度,提高了信息提取的效率和准确性。
附图说明
图1是本发明实施例1提供的一种信息处理的方法流程图;
图2-1是本发明实施例2提供的一种信息处理的方法流程图;
图2-2是本发明实施例2提供的一种非结构化文本文件的示意图;
图3-1是本发明实施例3提供的一种信息处理的方法流程图;
图3-2是本发明实施例3提供的一种非结构化文本文件的示意图;
图4是本发明实施例4提供的一种信息处理的装置结构示意图;
图5是本发明实施例5提供的一种终端设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
如下任一实施例的执行主体可以为服务器或终端等,终端可以为台式计算机、笔记本电脑或平板电脑等。
实施例1
参见图1,本发明实施例提供了一种信息处理的方法,所述方法包括:
步骤101:通过分词系统和实体识别系统标记非结构化文本文件中包括的指示代词和实体机构的机构名称。
步骤102:获取该指示代词属于的代词分类。
步骤103:根据该代词分类和被标记的实体机构的机构名称,确定该指示代词所指代的实体机构的机构名称。
步骤104:在该非结构化文本文件中将该指示代词替换为该指示代词所指代的实体机构的机构名称。
可选的,上述步骤102可以包括:
1021:确定该指示代词所属于的指示代词集合,该指示代词集合包括预设的至少一个指示代词。
1022:根据该指示代词集合的集合标识,从集合标识与代词分类的对应关系中获取该指示代词属于的代词分类。
可选的,上述步骤103可以包括:
1031:当该代词分类为预指类全局有效代词时,在非结构化文本文件中查找位于该指示代词之后的第一个被标记的机构名称并确定为该指示代词所指代的实体机构的机构名称。
1032:当该代词分类为回指类局部有效代词时,在非结构化文本文件中查找位于该指示代词之前的第一个被标记的机构名称并确定为该指示代词所指代的实体机构的机构名称。
1033:当该代词分类为回指类全局有效代词时,在非结构化文本文件中确定首次出现该指示代词的位置,查找位于该位置之前的第一个被标记的机构名称并确定为该指示代词所指代的实体机构的机构名称。可选的,在执行完步骤101之后,还包括:
步骤105:根据预设的规则表达式识别非结构化文本文件包括的实体机构的简称和全称,该规则表达式定义了实体机构的简称对应的句式结构。
步骤106:将非结构化文本文件包括的实体机构的简称替换为实体机构的全称。
可选的,上述步骤105可以包括:
1051:从非结构化文本文件中识别出预设的规则表达式所定义的句式结构的字符串,该字符串包括实体机构的简称。
1052:从非结构化文本文件中查找位于该字符串之前的第一个被标记的机构名称并确定为实体机构的机构名称为实体机构的全称。
在本发明实施例中,通过标记非结构化文本文件中包括的指示代词和实体机构的机构名称,获取标记的指示代词属于的代词分类,根据该代词分类和被标记的实体机构的机构名称,确定该指示代词所指代的实体机构的机构名称,在非结构化文本文件中将该指示代词替换为该指示代词所指代的实体机构的机构名称。由于将非结构化文本文件中的每个指示代词替换为各自所指代的实体机构的机构名称,减少了对非结构化文本文件的分析难度,提高了信息提取的效率和准确性。
实施例2
参见图2-1,本发明实施例提供了一种信息处理的方法,该方法用于获取非结构化文本文件包括的指示代词和该指示代词所指代的机构名称,包括:
步骤201:通过分词系统和实体识别系统标记非结构化文本文件中包括的指示代词和实体机构的机构名称。
分词系统和实体识别系统都是目前已有的系统。非结构化文本文件是企业公文文件,非结构化文本文件包括文字等内容。例如,参见图2-2所示的“北京###有限公司”的非结构化文本文件,该非结构化文本文件就是由文字组成。
在本步骤中,将非结构化文本文件输入到分词系统中,通过分词系统对非结构化文本文件中的文字进行分词,然后将经过分词的非结构化文本文件输入到实体识别系统中,通过实体识别系统对非结构化文本文件包括的分词一个一个地进行识别。对于任一个分词,当实体识别系统识别出该分词为实体机构的机构名称时,在非结构化文本文件中可以给该分词添加用于标记机构名称的标记符号,当实体识别系统识别出该分词为指示代词时,在非结构化文本文件中可以给该分词添加用于标记指示代词的标记符号。
例如,通过分词系统对如图2-2所示的非结构化文本文件包括的文字进行分词,将该非结构化文本文件分成“在”、“2017年”、“4月”、“北京###有限公司”、“在”、“污水”、“处理”、“技术”、“取得”等多个分词。然后将经过分词的该非结构化文本文件输入到实体识别系统,通过实体识别系统对分词“在”、“2017年”、“4月”分词进行一一识别,识别出均不是机构名称,也均不是指示代词。
继续通过实体识别系统对分词“北京###有限公司”进行识别,识别出为机构名称,在图2-2所示的非结构化文本文件中给该分词添加标记1,用于标记机构名称。继续通过实体识别系统对分词“在”进行识别,识别出即不是机构名称,又不是指示代词。按上述流程对图2-2所示的非结构化文本文件中的每个分词进行识别,并在图2-2所示的非结构化文本文件中添加了标记2、3、4、5、6、7和8,其中标记2、3、4、6和8,用于标记指示代词,标记5和7用于标记机构名称。
所谓实体机构就是例如像企事业单位、公司、组织或网站等单位,所谓指示代词用于表示指示概念的代词,即用于指示或标识人或事物的代词。就是用于指代实体机构的机构名称的代词。
步骤202:对于非结构化文本文件中的任一个指示代词,获取该指示代词属于的代词分类。
指示代词的代词分类通常包括三种,分别为预指类全局有效代词、回指类全局有效代词和回指类局部有效代词。所谓预指类全局有效代词是预指某个接下来会提到的语言单位,该类型的指示代词所指代的机构名称的位置位于该指示代词的位置之后;所谓回指类全局有效代词是回指某个以前说到过的语言单位,该类型的指示代词所指代的机构名称的位置位于该指示代词的位置之前且该指示代词在整篇非结构化文本文件中用于指示该机构名称;所谓回指类局部有效代词是指指示代词所指代的机构名称的位置位于该指示代词的位置之前且该指示代词在非结构化文本文件中的一段或多段内容中用于指示该机构名称。
例如,参见图2-2所示的非结构化文本文件,对于标记2和标记3所标记的指示代词“本公司”就是一个回指类全局有效代词,其所指代的实体机构的机构名称“北京###有限公司”的位置位于指示代词“本公司”之前,且指示代词“本公司”在整篇非结构化文本文件中都指示机构名称“北京###有限公司”。
标记6所标记的指示代词“该公司”和标记8所标记的指示代词“该公司”均为回指类局部有效代词。标记6标记的指示代词“该公司”指代的实体机构的机构名称“北京###朝阳分公司”的位置位于指示代词“该公司”之前,且指示代词“该公司”在该非结构化文本文件的第二段中都指示机构名称“北京###朝阳分公司”。标记8标记的指示代词“该公司”指代的实体机构的机构名称“北京***网络公司”的位置位于指示代词“该公司”之前,且指示代词“该公司”在该非结构化文本文件的第三段中都指示机构名称“北京***网络公司”。
标记4所标记的指示代词“子公司”为预指类全局有效代词。标记4标记的指示代词“子公司”指代的实体机构的机构名称“北京###朝阳分公司”的位置位于指示代词“子公司”之后,且指示代词“子公司”在该非结构化文本文件中都指示机构名称“北京###朝阳分公司”。
每个代词分类对应一个指示代词集合,在执行本步骤之前,本领域的技术人员可以对大量的非结构化文本文件进行分析得到当前出现的指示代词,对得到的每个指示代词进行分类,将每个指示代词添加到其所属代词分类对应的指示代词集合中。每个指示代词集合具有集合标识,对于每个代词分类,事先将该代词分类和该代词分类对应的指示代词集合的集合标识存储在代词分类与集合标识的对应关系中。
指示代词集合包括回指类全局有效代词集合、回指类局部有效代词集合和预指类全局有效代词集合。参见下表1所示的代词分类与集合标识的对应关系,回指类全局有效代词集合的集合标识为ID1且其对应的代词分类为回指类全局有效代词,回指类局部有效代词集合的集合标识为ID2且其对应的代词分类为回指类局部有效代词集合,预指类全局有效代词集合的集合标识为ID3且其对应的代词分类为预指类全局有效代词。
表1
代词分类 |
集合标识 |
回指类全局有效代词 |
ID1 |
回指类局部有效代词 |
ID2 |
预指类全局有效代词 |
ID3 |
本步骤可以为:确定该指示代词所属于的指示代词集合,该指示代词集合包括预设的至少一个指示代词;根据该指示代词集合的集合标识,从集合标识与代词分类的对应关系中获取该指示代词属于的代词分类。
例如,对于标记2所示的指示代词“本公司”,确定该指示代词“本公司”所属的回指类全局有效代词集合,根据该回指类全局有效代词集合的集合标识ID1,从集合标识与代词分类的对应关系中获取该指示代词“本公司”属于的代词分类为“回指类全局有效代词”。
再例如,对于标记4所示的指示代词“子公司”,确定该指示代词“子公司”所属的预指类全局有效代词集合,根据该预指类全局有效代词集合的集合标识ID3,从集合标识与代词分类的对应关系中获取该指示代词“子公司”属于的代词分类为“预指类全局有效代词”。
还例如,对于标记6所示的指示代词“该公司”,确定该指示代词“该公司”所属的回指类局部有效代词集合,根据该回指类局部有效代词集合的集合标识ID2,从集合标识与代词分类的对应关系中获取该指示代词“该公司”属于的代词分类为“回指类局部有效代词”。
步骤203:当该代词分类为预指类全局有效代词时,在非结构化文本文件中查找位于该指示代词之后的第一个被标记的机构名称并确定为该指示代词所指代的实体机构的机构名称。
例如,对于标记4所标记的指示代词“子公司”,在图2-2所示的非结构化文本文件中查找位于该指示代词“子公司”之后的第一个被标记的机构名称,该机构名称为标记5所标记的机构名称“北京###朝阳分公司”,将该机构名称“北京###朝阳分公司”确定为该指示代词“子公司”所指代的实体机构的机构名称。
步骤204:当该代词分类为回指类局部有效代词时,在非结构化文本文件中查找位于该指示代词之前的第一个被标记的机构名称并确定为该指示代词所指代的实体机构的机构名称。
例如,对于标记6所标记的指示代词“该公司”,在图2-2所示的非结构化文本文件中查找位于该指示代词“该公司”之前的第一个被标记的机构名称,该机构名称为标记5所标记的机构名称“北京###朝阳分公司”,将该机构名称“北京###朝阳分公司”确定为该指示代词“该公司”所指代的实体机构的机构名称。
步骤205:当该代词分类为回指类全局有效代词时,在非结构化文本文件中确定首次出现该指示代词的位置,查找位于该位置之前的第一个被标记的机构名称并确定为该指示代词所指代的实体机构的机构名称。
例如,对于标记2所标记的指示代词“本公司”,在图2-2所示的非结构化文本文件中查找首次出现该指示代词“本公司”的位置,该位置为标记2所标记的指示代词的位置,在该位置之前的第一个被标记的机构名称,该机构名称为标记1所标记的机构名称“北京###分公司”,将该机构名称“北京###分公司”确定为该指示代词“本公司”所指代的实体机构的机构名称。
按上述202至205的步骤,获取非结构化文本文件中标记的每个指示代词所指代的实体机构的机构名称。
步骤206:在非结构化文本文件中将该指示代词替换为该指示代词所指代的实体机构的机构名称。
其中,获取的机构名称可能为实体机构的简称,所以在本实施例,还可以对每个获取的机构名称进行归一化得到实体机构的全称,然后在非结构化文本文件中将该指示代词替换为该指示代词所指代的实体机构的全称。
该归一化操作可以为,将该获取的机构名称作为简称,从已存储的实体机构的简称与全称的对应关系中获取对应的全称,将该获取的全称作为该指示代词所指代的实体机构的全称。
可选的,上述步骤206可包括:
当该代词分类为预指类全局有效代词时,在确定该指示代词所指代的实体机构的机构名称之后,执行机构名称归一化,将当前代词内容替换为归一化处理后的机构名称,然后执行后向轮询迭代,迭代替换文章中该代词之后位置出现的该代词内容,改为归一化处理后的机构名称。
当该代词分类为回指类全局有效代词时,在确定该指示代词所指代的实体机构的机构名称之后,执行机构名称归一化,然后将文章中所有该代词内容替换为归一化处理后的机构名称。
在本发明实施例中,通过标记非结构化文本文件中包括的指示代词和实体机构的机构名称,获取标记的指示代词属于的代词分类,根据该代词分类和被标记的实体机构的机构名称,确定该指示代词所指代的实体机构的机构名称,在非结构化文本文件中将该指示代词替换为该指示代词所指代的实体机构的机构名称。由于将非结构化文本文件中的每个指示代词替换为各自所指代的实体机构的机构名称,减少了对非结构化文本文件的分析难度,提高了信息提取的效率和准确性。
实施例3
参见图3-1,本发明实施例提供了一种信息处理的方法,该方法用于获取非结构化文本文件包括的机构名称的简称和全称,包括:
步骤301:通过分词系统和实体识别系统标记非结构化文本文件中包括的指示代词和实体机构的机构名称。
本步骤的详细实现过程可以参见步骤201中的相关内容,在此不再详细说明。
步骤302:根据预设的规则表达式,从非结构化文本文件中识别出该规则表达式所定义的句式结构的文本内容,该文本内容包括实体机构的简称。
预设的规则表达式定义了实体机构的简称对应的句式结构。例如,参见图3-2所示的非结构化文本文件,该非结构化文本文件中的文字内容“(下称北京###)”就是实体机构的简称对应的句式结构,该文本内容包括实体结构的简称“北京###”。再如,该非结构化文本文件中的文字内容“(下称北京***或北京网络)”的句式结构也是实体机构的简称对应的句式结构,该文本内容包括实体结构的简称“北京***”和“北京网络”。
预设的规则表达式可以为“(\\(|().{0,5}?(称).{0,20}?(\\)|))”和“(\\(|().{0,5}?(称).{0,20}?(或|、).{0,20}?(\\)|))”等。
对于规则表达式“(\\(|().{0,5}?(称).{0,20}?(\\)|))”,这个规则表达式定义了一种句式结构的文本内容。在该句式结构的文本内容中包括文字“称”,在文字“称”之前具有一个英文或中文的左括号,在文字“称”与该左括号之间包括的文字数目可以大于或等于0且小于或等于5;在文字“称”之后具有一个英文或中文的右括号,在该文字“称”和该右括号之间包括的文字数目可以大于或等于0且小于或等于20。例如,“(下称北京###)”就是该规则表达式定义的句式结构的文本内容,该文本内容包括文字“称”,在文字“称”之前包括中文左括号,在中文左括号与该文字“称”之间包括1个文字“下”;在文字“称”之后包括中文右括号,在该文字“称”和中文右括号之间包括5个文字“北京###”。
对于规则表达“(\\(|().{0,5}?(称).{0,20}?(或|、).{0,20}?(\\)|))”,这个规则表达式定义了另一种句式结构的文本内容。在该句式结构的文本内容中包括文字“称”和预设字符,预设字符位于该文字“称”之后,预设字符可以为文字“或”或顿号;在文字“称”之前具有一个英文或中文的左括号,在文字“称”与该左括号之间包括的文字数目可以大于或等于0且小于或等于5;在该文字“称”和预设字符之间包括的文字数目可以大于或等于0且小于或等于20;在预设字符之后具有一个英文或中文的右括号,在预设字符和该右括号之间包括的文字数目可以大于或等于0且小于或等于20。例如,“(下称北京***或北京网络)”就是该规则表达式定义的句式结构的文本内容,该文本内容包括文字“称”和预设字符“或”,预设字符“或”位于文字“称”之后;在文字“称”之前包括中文左括号,在中文左括号与该文字“称”之间包括1个文字“下”;在该文字“称”和预设字符“或”之间包括的5个文字“北京***”;在预设字符“或”之后包括中文右括号,在该预设字符“或”和中文右括号之间包括4个文字“北京网络”。
本步骤的可以为:在非结构化文本文件包括的第一个文字前设置分析窗口,每向该分析窗口中输入一字符时利用预设的规则表达式分析该分析窗口中的文本内容是否为该规则表达式所定义的句式结构的文本内容,如果是,则标记该文本内容。
例如,在图3-2所示的非结构化文本文件中,利用规则表达式识别出规则表达式所定义的句式结构的文本内容,包括标记2所示标记的文本内容“(下称北京###)”和“(下称北京***或北京网络)”。
步骤303:从该非结构化文本文件中查找位于该文本内容之前的第一个被标记的机构名称并将该机构名称确定为该实体机构的全称。
例如,对于文本内容“(下称北京###)”,在图3-2所示的非结构化文本文件中位于文本内容“(下称北京###)”之前的第一个被标记的机构名称为标记1所标记的机构名称“北京###有限公司”。
再如,对于文本内容“(下称北京***或北京网络)”,在图3-2所示的非结构化文本文件中位于文本内容“(下称北京***或北京网络)”之前的第一个被标记的机构名称为标记6所标记的机构名称“北京***网络公司”。
步骤304:将该非结构化文本文件包括的该实体机构的简称替换为该实体机构的全称。
本实施例的方法在指代消解过程的共指消解步骤中,收集全称与简称的对应关系,经人工校对后,正确的机构(全称-简称)对应关系将会被收集储存,这些数据可用于对机构全称简称进行归一化。
在本发明实施例中,通过预设的规则表达式获取非结构化文本文件中的实体机构的简称和全称。然后将非结构化文本文件中的每个实体机构的简称替换为各自的全称,从而减少了对非结构化文本文件的分析难度,提高了信息提取的效率和准确性。
实施例4
参见图4,本发明实施例提供了一种信息处理的装置400,所述装置400包括:
识别模块401,用于通过分词系统和实体识别系统标记非结构化文本文件中包括的指示代词和实体机构的机构名称;
获取模块402,用于获取所述指示代词属于的代词分类;
确定模块403,用于根据所述代词分类和被标记的所述实体机构的机构名称,确定所述指示代词所指代的实体机构的机构名称;
替换模块404,用于在所述非结构化文本文件中将所述指示代词替换为所述指示代词所指代的实体机构的机构名称。
可选的,所述获取模块402包括:
第一确定单元,用于确定所述指示代词所属于的指示代词集合,所述指示代词集合包括预设的至少一个指示代词;
获取单元,用于根据所述指示代词集合的集合标识,从集合标识与代词分类的对应关系中获取所述指示代词属于的代词分类。
可选的,所述确定模块403包括:
第二确定单元,用于当所述代词分类为预指类全局有效代词时,在所述非结构化文本文件中查找位于所述指示代词之后的第一个被标记的机构名称并确定为所述指示代词所指代的实体机构的机构名称;
第三确定单元,用于当所述代词分类为回指类局部有效代词时,在所述非结构化文本文件中查找位于所述指示代词之前的第一个被标记的机构名称并确定为所述指示代词所指代的实体机构的机构名称;
第四确定单元,用于当所述代词分类为回指类全局有效代词时,在所述非结构化文本文件中确定首次出现所述指示代词的位置,查找位于所述位置之前的第一个被标记的机构名称并确定为所述指示代词所指代的实体机构的机构名称。
可选的,所述识别模块401,还用于根据预设的规则表达式识别所述非结构化文本文件包括的实体机构的简称和全称,所述规则表达式定义了实体机构的简称对应的句式结构;
所述替换模块404,还用于将所述非结构化文本文件包括的所述实体机构的简称替换为所述实体机构的全称。
可选的,所述识别模块包括:
识别单元,用于从所述非结构化文本文件中识别出所述预设的规则表达式所定义的句式结构的字符串,所述字符串包括实体机构的简称;
查询标记单元,用于从所述非结构化文本文件中查找位于所述字符串之前的第一个被标记的机构名称并确定为所述实体机构的机构名称为所述实体机构的全称。
在本发明实施例中,通过标记非结构化文本文件中包括的指示代词和实体机构的机构名称,获取标记的指示代词属于的代词分类,根据该代词分类和被标记的实体机构的机构名称,确定该指示代词所指代的实体机构的机构名称,在非结构化文本文件中将该指示代词替换为该指示代词所指代的实体机构的机构名称。由于将非结构化文本文件中的每个指示代词替换为各自所指代的实体机构的机构名称,减少了对非结构化文本文件的分析难度,提高了信息提取的效率和准确性。
实施例5
图5是根据一示例性实施例示出的一种终端设备500的框图,该终端设备可以用于执行实施例1、实施例2或实施例3所示的方法。参照图5,终端设备500可以包括以下一个或多个组件:处理组件502,存储器504,电源组件506,多媒体组件508,音频组件510,输入/输出(I/O)的接口512,传感器组件514,以及通信组件516。
处理组件502通常控制终端设备500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理组件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在终端设备500的操作。这些数据的示例包括用于在终端设备500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件506为终端设备500的各种组件提供电力。电源组件506可以包括电源管理系统,一个或多个电源,及其他与为终端设备500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述终端设备500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当终端设备500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当终端设备500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为终端设备500提供各个方面的状态评估。例如,传感器组件514可以检测到终端设备500的打开/关闭状态,组件的相对定位,例如所述组件为终端设备500的显示器和小键盘,传感器组件514还可以检测终端设备500或终端设备500一个组件的位置改变,用户与终端设备500接触的存在或不存在,终端设备500方位或加速/减速和终端设备500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于终端设备500和其他设备之间有线或无线方式的通信。终端设备500可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,终端设备500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由终端设备500的处理器520执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端设备500的处理器执行时,使得终端设备500能够执行一种信息处理的方法,所述方法包括:
通过分词系统和实体识别系统标记非结构化文本文件中包括的指示代词和实体机构的机构名称;
获取所述指示代词属于的代词分类;
根据所述代词分类和被标记的所述实体机构的机构名称,确定所述指示代词所指代的实体机构的机构名称;
在所述非结构化文本文件中将所述指示代词替换为所述指示代词所指代的实体机构的机构名称。
可选的,所述获取所述指示代词属于的代词分类,包括:
确定所述指示代词所属于的指示代词集合,所述指示代词集合包括预设的至少一个指示代词;
根据所述指示代词集合的集合标识,从集合标识与代词分类的对应关系中获取所述指示代词属于的代词分类。
可选的,所述根据所述代词分类和被标记的所述实体机构的机构名称,确定所述指示代词所指代的实体机构的机构名称,包括:
当所述代词分类为预指类全局有效代词时,在所述非结构化文本文件中查找位于所述指示代词之后的第一个被标记的机构名称并确定为所述指示代词所指代的实体机构的机构名称;
当所述代词分类为回指类局部有效代词时,在所述非结构化文本文件中查找位于所述指示代词之前的第一个被标记的机构名称并确定为所述指示代词所指代的实体机构的机构名称;
当所述代词分类为回指类全局有效代词时,在所述非结构化文本文件中确定首次出现所述指示代词的位置,查找位于所述位置之前的第一个被标记的机构名称并确定为所述指示代词所指代的实体机构的机构名称。
可选的,所述通过分词系统和实体识别系统标记非结构化文本文件中包括的指示代词和实体机构的机构名称之后,还包括:
根据预设的规则表达式识别所述非结构化文本文件包括的实体机构的简称和全称,所述规则表达式定义了实体机构的简称对应的句式结构;
将所述非结构化文本文件包括的所述实体机构的简称替换为所述实体机构的全称。
可选的,所述根据预设的规则表达式识别所述非结构化文本文件包括的实体机构的简称和全称,包括:
从所述非结构化文本文件中识别出所述预设的规则表达式所定义的句式结构的字符串,所述字符串包括实体机构的简称;
从所述非结构化文本文件中查找位于所述字符串之前的第一个被标记的机构名称并确定为所述实体机构的机构名称为所述实体机构的全称。
在本发明实施例中,通过标记非结构化文本文件中包括的指示代词和实体机构的机构名称,获取标记的指示代词属于的代词分类,根据该代词分类和被标记的实体机构的机构名称,确定该指示代词所指代的实体机构的机构名称,在非结构化文本文件中将该指示代词替换为该指示代词所指代的实体机构的机构名称。由于将非结构化文本文件中的每个指示代词替换为各自所指代的实体机构的机构名称,减少了对非结构化文本文件的分析难度,提高了信息提取的效率和准确性。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。