CN104199803B - 一种基于组合理论的文本信息处理系统及方法 - Google Patents
一种基于组合理论的文本信息处理系统及方法 Download PDFInfo
- Publication number
- CN104199803B CN104199803B CN201410348404.XA CN201410348404A CN104199803B CN 104199803 B CN104199803 B CN 104199803B CN 201410348404 A CN201410348404 A CN 201410348404A CN 104199803 B CN104199803 B CN 104199803B
- Authority
- CN
- China
- Prior art keywords
- layer
- basic element
- natural language
- processing system
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
- Devices For Executing Special Programs (AREA)
Abstract
本发明提出了一种基于组合理论的文本信息处理系统及方法,解决了文本数据分析问题,可充分释放文本信息的价值,其包括:基本元素层,用于定义最底层的基本元素和执行基本元素的匹配逻辑;组合逻辑层,连接基本元素层,用于定义一种或多种组合逻辑,组合逻辑用于将基本元素粘合成组合性表达元素;编程接口定义层,连接组合逻辑层,定义一个或多个可通过编程实现的规则表达接口;抽取支持层,连接编程接口定义层,用于根据匹配规则抽取文本信息,并将文本信息以规则表达;类自然语言描述层,连接抽取支持层,以类自然语言的格式来描述规则;类自然语言描述解析及优化组件,连接类自然语言描述层;支持组件,连接类自然语言描述解析及优化组件。
Description
技术领域
本发明涉及文本分析技术领域,尤其涉及一种基于组合理论的文本信息处理系统及方法。
背景技术
信息抽取就是从文本中抽取特定的实时信息。在大多数的信息抽取中,都是通过识别文本中的实体,对实体进行语义分析来确定文本语义信息的,但是该类方法局限性大,在语义分析过程中,语义信息的描述过于机械化,容易遗漏,特征项的选取较片面,语义表达不完整甚至错误,总而言之,现有的语义抽取技术,不能准确并充分的释放文本信息,从而难以对文本信息进行有效利用。
因此,现有技术中,在进行文本语义处理的过程中,如何做到对文本信息进行充分释放,是十分关键的问题。
发明内容
基于背景技术存在的问题,本发明提出了一种基于组合理论的文本信息处理系统及方法,解决了文本数据分析问题,可充分释放文本信息的价值。
本发明提出的一种基于组合理论的文本信息处理系统,包括:
基本元素层,用于定义最底层的基本元素和执行基本元素的匹配逻辑;
组合逻辑层,连接基本元素层,用于定义一种或多种组合逻辑,组合逻辑用于将基本元素粘合成组合性表达元素;
编程接口定义层,连接组合逻辑层,用于定义一个或多个可通过编程实现的规则表达接口;
抽取支持层,连接编程接口定义层,用于根据匹配规则抽取文本信息,并将文本信息以规则表达;
类自然语言描述层,连接抽取支持层,用于以类自然语言的格式来描述规则;
类自然语言描述解析及优化组件,连接类自然语言描述层,将以类自然语言描述的规则解析为以基本元素和逻辑组合形式构成的内部表达式;
支持组件,连接类自然语言描述解析及优化组件,用于提供逻辑组合形式。
优选地,基本元素层包括:基本表达元素模块,用于定义表达元素;基本数量元素模块,用于定义数量元素;表达执行器,用于执行基本元素的表达方式。
优选地,组合逻辑包括布尔表达逻辑、类正则表达逻辑、连接表达逻辑和/或位置表达逻辑。
优选地,编程接口定义层中的每一个规则表达接口均可通过编程实现特定特性。
优选地,抽取支持层抽取的文本信息的表达方式为短语构词、短句构词或句式结构。
优选地,逻辑组合形式内置并具有工具性。
优选地,逻辑组合形式包括通用的组合形式。
优选地,逻辑组合形式包括常用的组合形式。
优选地,逻辑组合形式包括词汇性组合形式,常用词组合形式,数量、顺序及时间组合形式和句式级连接词组合形式。
一种基于组合理论的文本信息处理方法,包括步骤:
S1、定义最底层的基本元素和执行基本元素的匹配逻辑;
S2、根据组合逻辑粘合基本元素,获取组合性表达元素做为匹配规则;
S3、根据编程实现规则表达接口并接入匹配规则;
S4、根据匹配规则抽取文本信息,并将文本信息以规则表达;
S5、将规则以类自然语言的格式来描述;
S6、对类自然语言描述的规则进行解析,并以基本元素和连逻辑组合形式来表示,形成内部表达式。
本发明利用组合规则表达文本信息,既保证了文本信息的有效提取,又避免了相同信息的重复表达,有效的解决了文本数据分析问题,不但精准度高、提供语义信息丰富,而且极具实用性和可产业化等特点,以其作为数据挖掘等技术的输入数据,可充分释放文本信息的价值。
附图说明
图1为本发明提出的一种基于组合理论的文本信息处理系统的结构图;
图2为图1所示系统的工作流程图。
具体实施方式
参照图1,本发明提出的一种基于组合理论的文本信息处理系统,包括基本元素层、组合逻辑层、编程接口定义层、抽取支持层、类自然语言描述层、类自然语言描述解析及优化组件和支持组件。
基本元素层,用于定义最底层的基本元素和执行基本元素的匹配逻辑,其包括基本表达元素模块、基本数量元素模块和表达执行器。其中,基本表达元素模块,用于定义表达元素;基本数量元素模块,用于定义数量元素;表达执行器,用于执行基本元素的表达方式。
组合逻辑层,连接基本元素层,用于定义一种或多种组合逻辑,组合逻辑用于将基本元素粘合成组合性表达元素。组合逻辑包括布尔表达逻辑、类正则表达逻辑、连接表达逻辑和/或位置表达逻辑的任意组合。本实施方式中,组合逻辑包括布尔表达逻辑、类正则表达逻辑、连接表达逻辑和位置表达逻辑。
编程接口定义层,连接组合逻辑层,用于定义一个或多个可通过编程实现的规则表达接口。编程接口定义层中的每一个规则表达接口均可通过编程实现特定特性。
抽取支持层,连接编程接口定义层,用于根据匹配规则抽取文本信息,并将文本信息以规则表达。抽取支持层抽取的文本信息的表达方式为短语构词、短句构词或句式结构。
类自然语言描述层,连接抽取支持层,用于以类自然语言的格式来描述规则。类自然语言的格式适配自然语言的书写习惯和语法特征,使得规则的表达形式更加贴近自然语言,人员易于上手。
类自然语言描述解析及优化组件,连接类自然语言描述层,将以类自然语言描述的规则解析为以基本元素和逻辑组合形式构成的内部表达式,一方面优化执行效能,另一方面将上层的规则解析为底层的基本逻辑,表达方式更加清晰,避免信息描述的重复。
支持组件,连接类自然语言描述解析及优化组件,用于提供内置的、工具性的逻辑组合形式。同时,为了更加方便的工作,逻辑组合形式还可以具有通用性或常用性。本实施方式中,逻辑组合形式为核心人员开发的内置的、常用的或者通用的、工具性的组合形式,具体包括词汇性组合形式;常用词组合形式,例如姓名、地域、名词等;数量、顺序及时间组合形式和句式级连接词组合形式。
参照图2,图1所示系统的工作方式包括以下步骤:
S1、定义最底层的基本元素和执行基本元素的匹配逻辑;
S2、根据组合逻辑粘合基本元素,获取组合性表达元素做为匹配规则;
S3、根据编程实现规则表达接口并接入匹配规则;
S4、根据匹配规则抽取文本信息,并将文本信息以规则表达;
S5、将规则以类自然语言的格式来描述;
S6、对类自然语言描述的规则进行解析,并以基本元素和连逻辑组合形式来表示,形成内部表达式。
以上方法中,利用组合规则表达文本信息,既保证了文本信息的有效提取,又避免了相同信息的重复表达,有效的解决了文本数据分析问题,不但精准度高、提供语义信息丰富,而且极具实用性和可产业化等特点,以其作为数据挖掘等技术的输入数据,可充分释放文本信息的价值。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (9)
1.一种基于组合理论的文本信息处理系统,其特征在于,包括:
基本元素层,用于定义最底层的基本元素和执行基本元素的匹配逻辑;
组合逻辑层,连接基本元素层,用于定义一种或多种组合逻辑,组合逻辑用于将基本元素粘合成组合性表达元素;
编程接口定义层,连接组合逻辑层,用于定义一个或多个可通过编程实现的规则表达接口;
抽取支持层,连接编程接口定义层,用于根据匹配规则抽取文本信息,并将文本信息以规则表达;
类自然语言描述层,连接抽取支持层,用于以类自然语言的格式来描述规则;
类自然语言描述解析及优化组件,连接类自然语言描述层,将以类自然语言描述的规则解析为以基本元素和逻辑组合形式构成的内部表达式;
支持组件,连接类自然语言描述解析及优化组件,用于提供逻辑组合形式;
基于上述组合理论的文本信息处理系统的处理方法,包括步骤:
S1、定义最底层的基本元素和执行基本元素的匹配逻辑;
S2、根据组合逻辑粘合基本元素,获取组合性表达元素做为匹配规则;
S3、根据编程实现规则表达接口并接入匹配规则;
S4、根据匹配规则抽取文本信息,并将文本信息以规则表达;
S5、将规则以类自然语言的格式来描述;
S6、对类自然语言描述的规则进行解析,并以基本元素和连逻辑组合形式来表示,形成内部表达式。
2.如权利要求1所述的基于组合理论的文本信息处理系统,其特征在于,基本元素层包括:基本表达元素模块,用于定义表达元素;基本数量元素模块,用于定义数量元素;表达执行器,用于执行基本元素的表达方式。
3.如权利要求1所述的基于组合理论的文本信息处理系统,其特征在于,组合逻辑包括布尔表达逻辑、类正则表达逻辑、连接表达逻辑和/或位置表达逻辑。
4.如权利要求1所述的基于组合理论的文本信息处理系统,其特征在于,编程接口定义层中的每一个规则表达接口均可通过编程实现特定特性。
5.如权利要求1所述的基于组合理论的文本信息处理系统,其特征在于,抽取支持层抽取的文本信息的表达方式为短语构词、短句构词或句式结构。
6.如权利要求1所述的基于组合理论的文本信息处理系统,其特征在于,逻辑组合形式内置并具有工具性。
7.如权利要求1或6所述的基于组合理论的文本信息处理系统,其特征在于,逻辑组合形式包括通用的组合形式。
8.如权利要求1或6所述的基于组合理论的文本信息处理系统,其特征在于,逻辑组合形式包括常用的组合形式。
9.如权利要求1或6所述的基于组合理论的文本信息处理系统,其特征在于,逻辑组合形式包括词汇性组合形式,常用词组合形式,数量、顺序及时间组合形式和句式级连接词组合形式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410348404.XA CN104199803B (zh) | 2014-07-21 | 2014-07-21 | 一种基于组合理论的文本信息处理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410348404.XA CN104199803B (zh) | 2014-07-21 | 2014-07-21 | 一种基于组合理论的文本信息处理系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104199803A CN104199803A (zh) | 2014-12-10 |
CN104199803B true CN104199803B (zh) | 2017-10-13 |
Family
ID=52085098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410348404.XA Expired - Fee Related CN104199803B (zh) | 2014-07-21 | 2014-07-21 | 一种基于组合理论的文本信息处理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104199803B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732876B (zh) * | 2021-02-08 | 2022-07-08 | 杭州北冥星眸科技有限公司 | 一种通用的语义匹配实现方法与系统 |
CN112990182B (zh) * | 2021-05-10 | 2021-09-21 | 北京轻松筹信息技术有限公司 | 筹款信息审核方法、系统及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998039714A1 (en) * | 1997-03-07 | 1998-09-11 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
CN101271463A (zh) * | 2007-06-22 | 2008-09-24 | 北大方正集团有限公司 | 版式文件逻辑结构信息的表示方法和系统 |
CN101361063A (zh) * | 2006-04-12 | 2009-02-04 | 龙搜(北京)科技有限公司 | 支持基于规则的文档内容挖掘的系统与方法 |
CN102779149A (zh) * | 2011-05-10 | 2012-11-14 | 索尼公司 | 信息处理装置,信息处理方法,程序和信息处理系统 |
CN103246641A (zh) * | 2013-05-16 | 2013-08-14 | 李营 | 一种文本语义信息分析系统和方法 |
CN103678273A (zh) * | 2012-09-14 | 2014-03-26 | 安徽华贞信息科技有限公司 | 互联网段落级话题识别系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7146361B2 (en) * | 2003-05-30 | 2006-12-05 | International Business Machines Corporation | System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND) |
-
2014
- 2014-07-21 CN CN201410348404.XA patent/CN104199803B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998039714A1 (en) * | 1997-03-07 | 1998-09-11 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
CN101361063A (zh) * | 2006-04-12 | 2009-02-04 | 龙搜(北京)科技有限公司 | 支持基于规则的文档内容挖掘的系统与方法 |
CN101271463A (zh) * | 2007-06-22 | 2008-09-24 | 北大方正集团有限公司 | 版式文件逻辑结构信息的表示方法和系统 |
CN102779149A (zh) * | 2011-05-10 | 2012-11-14 | 索尼公司 | 信息处理装置,信息处理方法,程序和信息处理系统 |
CN103678273A (zh) * | 2012-09-14 | 2014-03-26 | 安徽华贞信息科技有限公司 | 互联网段落级话题识别系统 |
CN103246641A (zh) * | 2013-05-16 | 2013-08-14 | 李营 | 一种文本语义信息分析系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104199803A (zh) | 2014-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pasha et al. | Madamira: A fast, comprehensive tool for morphological analysis and disambiguation of arabic. | |
Constant et al. | MWU-aware part-of-speech tagging with a CRF model and lexical resources | |
CN104485105B (zh) | 一种电子病历生成方法和电子病历系统 | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和系统 | |
CN101937430B (zh) | 一种汉语句子中事件句式的抽取方法 | |
CN105528410B (zh) | 一种对医院的在线评论进行归纳和分类的方法 | |
JP2010532897A (ja) | 知的なテキスト注釈の方法、システム及びコンピュータ・プログラム | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
CN104991891A (zh) | 一种短文本特征提取方法 | |
CN102651055A (zh) | 一种基于医学影像的文件生成方法及系统 | |
CN105573990B (zh) | 外语句子制作支援装置以及方法 | |
CN108665141B (zh) | 一种从突发事件预案中自动抽取应急响应流程模型的方法 | |
TWI735380B (zh) | 自然語言處理方法與其計算裝置 | |
CN103927179B (zh) | 一种基于WordNet的程序可读性分析方法 | |
CN107102980A (zh) | 情感信息的提取方法及装置 | |
CN107145476A (zh) | 一种基于改进tf‑idf关键词提取算法 | |
CN104199803B (zh) | 一种基于组合理论的文本信息处理系统及方法 | |
CN104166682B (zh) | 一种基于组合理论的类自然语言的语义信息抽取方法及系统 | |
CN104199811B (zh) | 短句解析模型建立方法及系统 | |
Zafar et al. | Developing urdu wordnet using the merge approach | |
WO2024109097A1 (zh) | 专利文本的知识图谱创建方法、装置、存储介质及设备 | |
Kuncham et al. | Statistical sandhi splitter for agglutinative languages | |
CN103678607B (zh) | 一种情感标注系统的构建方法 | |
JP2014191484A (ja) | 文末表現変換装置、方法、及びプログラム | |
JP6114090B2 (ja) | 機械翻訳装置、機械翻訳方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171013 Termination date: 20190721 |
|
CF01 | Termination of patent right due to non-payment of annual fee |