CN106021286A - 一种基于语言结构的语言理解方法 - Google Patents
一种基于语言结构的语言理解方法 Download PDFInfo
- Publication number
- CN106021286A CN106021286A CN201610283792.7A CN201610283792A CN106021286A CN 106021286 A CN106021286 A CN 106021286A CN 201610283792 A CN201610283792 A CN 201610283792A CN 106021286 A CN106021286 A CN 106021286A
- Authority
- CN
- China
- Prior art keywords
- semantic
- analysis
- morpheme
- language
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于语言结构的语言理解方法,其包括以下步骤:(1)语素分析;(2)语法分析及语义分析;(3)查询数据库;(4)获得语义节点的层次;(5)从语义数据库中查询与之匹配度最高的匹配模板;(6)基于匹配模板,将步骤(1)中的语素分析结果反馈匹配到匹配模板中。其通过语素分析来进行语义分析和语法分析,并根据语义分析和语法分析得出语义节点,并根据语义节点分析出与该待分析的语言最为匹配的匹配模板,将语素分析的结果再反馈给该匹配模板,实现语言的层次化分析,本发明通过逐层次的对语言结构进行分析,并将分析后的匹配结果反馈到语素分析中,通过反馈与层次结合的方法,实现了语言结构的准确、快速的理解。
Description
技术领域
本发明属于自然语言处理技术领域,尤其是涉及一种基于语言结构的语言理解方法。
背景技术
自然语言理解是使用自然语言同计算机进行通讯的技术,因为处理自然语言的关键是要让计算机理解自然语言,所以自然语言理解,一方面它是语言信息处理的一个分支,研究使用计算机通过计算理解和生成自然语言,另一方面它是人工智能的核心课题之一,研究让计算机使用自然语言这一人类智能的重要标志之一。虽然我们知道了计算机处理和理解自然语言的过程和层次,但一个现实的问题是,现在的计算机智能还远远没有达到能够像人一样理解自然语言的水平,而且在可预见的将来也达不到这样的水平。与此同时,随着计算机和互联网的广泛应用昭示着信息时代的到来,计算机可处理的自然语言文本数量空前增长,面向海量信息的文本挖掘、信息提取、跨语言信息处理、人机交互等应用需求急速增长,自然语言处理研究必将对我们的生活产生深远的影响。
在国际自然语言理解技术不断革新和进步的影响下,在国内学者的共同努力下,自然语言理解研究也在不断的深入和提高,受到互联网和信息技术空前发展的带动,自然语言理解技术又出现了新的需求和新的难题,总的来说这一时期呈现出多元化、多角度的研究态势。因此,语言理解方法需要从不同角度、不同方面进行多方面研究,集各种理解层次与结构于一体,实现更佳的理解方法,逐步提高计算机的语言识别能力。
发明内容
本发明针对现有的技术问题,提供一种基于语言结构的语言理解方法,其通过语素分析来进行语义分析和语法分析,并根据语义分析和语法分析得出语义节点,并根据语义节点分析出与该待分析的语言最为匹配的匹配模板,然后,将语素分析的结果再反馈给该匹配模板,实现语言的层次化分析,本发明通过逐层次的对语言结构进行分析,并将分析后的匹配结果反馈到语素分析中,通过反馈与层次结合的方法,实现了语言结构的准确、快速的理解。
为实现上述目的,本发明提供如下技术方案:一种基于语言结构的语言理解方法,其特征在于,其包括以下步骤:
(1)输入待理解的语句,控制器对该待理解的语句进行语素分析,得出一串词及其定义;
(2)基于提取出的语素信息,控制器进行语法分析及语义分析;
(3)语法分析和语义解释配合进行,语义随时指令推理,系统作出推论,同时,查询数据库;
(4)根据步骤(3)中的语法分析和语义解释,获得语义节点的层次;
(5)基于语义节点的层次,从语义数据库中查询与之匹配度最高的匹配模板;
(6)基于匹配模板,将步骤(1)中的语素分析结果反馈匹配到匹配模板中,实现对语言的理解。
进一步,作为优选,所述步骤(1)中,对语素分析时,至少包括语素的提取以及语素之间关系的分析,其中,提取语素是基于单音节语素,双音节语素和多音节语素进行提取的,语素之间关系的分析至少包括分析语素之间是平等的、不分主次的联合关系、有主次之分的偏正关系、相互支配关系、相互陈述说明的陈述关系、相互补充说明的补充关系、事物之间计量关系、附加组合的组合关系还是重复语素的重叠式关系。
进一步,作为优选,所述步骤(2)中,语法分析至少包括分析主语、谓语、宾语、述语以及它们之间的结构关系,语义分析至少包括分析动作行为、性质状态、施事、受事、工具、处所以及它们之间的关系。
进一步,作为优选,所述步骤(3)中的数据库中,存储有语义解析标准指令、语义解析规则、语法解析标准指令和语法解析规则。
进一步,作为优选,所述步骤(4)中,生成语义节点是根据步骤(3)中分析出来的语义逻辑关系、语义动态关系和语义静态关系进行生成,其中,语义逻辑关系的分析是通过与数据库中的逻辑词语进行一一比较,通过比较筛选出来的逻辑词语,语义动态关系是通过与数据库中的动词进行比较,筛选出来的动作词语,语义静态关系是通过与数据库中的名词进行比较,筛选出来的名词词语,基于这些名词、动词、逻辑词以及语言中的标点信息,以标点为导向优先考虑的对象,确定语言中的各个语义节点,以便将语言分割成由各个语义节点分开的语义。
进一步,作为优选,所述步骤(4)中,当一个语言中包括多个动词时,需要先从数据库中的语义解析规则和语法解析规则中进行查询比较,寻找出最为核心的动词,基于该最为核心的动词,对各个语义节点进行设置。
进一步,作为优选,所述步骤(5)中,采用一一映射与余弦相似度公式的方式进行计算匹配度。
与现有技术相比,本发明的有益效果是:
本发明通过语素分析来进行语义分析和语法分析,并根据语义分析和语法分析得出语义节点,并根据语义节点分析出与该待分析的语言最为匹配的匹配模板,然后,将语素分析的结果再反馈给该匹配模板,实现语言的层次化分析,本发明通过逐层次的对语言结构进行分析,并将分析后的匹配结果反馈到语素分析中,通过反馈与层次结合的方法,实现了语言结构的准确、快速的理解。
附图说明
图1为本发明一种基于语言结构的语言理解方法的结构流程示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于语言结构的语言理解方法,其特征在于,其包括以下步骤:
(1)输入待理解的语句,控制器对该待理解的语句进行语素分析,得出一串词及其定义;
(2)基于提取出的语素信息,控制器进行语法分析及语义分析;
(3)语法分析和语义解释配合进行,语义随时指令推理,系统作出推论,同时,查询数据库;
(4)根据步骤(3)中的语法分析和语义解释,获得语义节点的层次;
(5)基于语义节点的层次,从语义数据库中查询与之匹配度最高的匹配模板;
(6)基于匹配模板,将步骤(1)中的语素分析结果反馈匹配到匹配模板中,实现对语言的理解。
在本实施例中,所述步骤(1)中,对语素分析时,至少包括语素的提取以及语素之间关系的分析,其中,提取语素是基于单音节语素,双音节语素和多音节语素进行提取的,语素之间关系的分析至少包括分析语素之间是平等的、不分主次的联合关系、有主次之分的偏正关系、相互支配关系、相互陈述说明的陈述关系、相互补充说明的补充关系、事物之间计量关系、附加组合的组合关系还是重复语素的重叠式关系。所述步骤(2)中,语法分析至少包括分析主语、谓语、宾语、述语以及它们之间的结构关系,语义分析至少包括分析动作行为、性质状态、施事、受事、工具、处所以及它们之间的关系。所述步骤(3)中的数据库中,存储有语义解析标准指令、语义解析规则、语法解析标准指令和语法解析规则。所述步骤(4)中,生成语义节点是根据步骤(3)中分析出来的语义逻辑关系、语义动态关系和语义静态关系进行生成,其中,语义逻辑关系的分析是通过与数据库中的逻辑词语进行一一比较,通过比较筛选出来的逻辑词语,语义动态关系是通过与数据库中的动词进行比较,筛选出来的动作词语,语义静态关系是通过与数据库中的名词进行比较,筛选出来的名词词语,基于这些名词、动词、逻辑词以及语言中的标点信息,以标点为导向优先考虑的对象,确定语言中的各个语义节点,以便将语言分割成由各个语义节点分开的语义。
此外,在本实施例中,所述步骤(4)中,当一个语言中包括多个动词时,需要先从数据库中的语义解析规则和语法解析规则中进行查询比较,寻找出最为核心的动词,基于该最为核心的动词,对各个语义节点进行设置。
同时,所述步骤(5)中,采用一一映射与余弦相似度公式的方式进行计算匹配度,这种匹配相似度的方法已经在中国专利CN104850539A中有所记载,在此不在赘述。
本发明通过语素分析来进行语义分析和语法分析,并根据语义分析和语法分析得出语义节点,并根据语义节点分析出与该待分析的语言最为匹配的匹配模板,然后,将语素分析的结果再反馈给该匹配模板,实现语言的层次化分析,本发明通过逐层次的对语言结构进行分析,并将分析后的匹配结果反馈到语素分析中,通过反馈与层次结合的方法,实现了语言结构的准确、快速的理解。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.一种基于语言结构的语言理解方法,其特征在于,其包括以下步骤:
(1)输入待理解的语句,控制器对该待理解的语句进行语素分析,得出一串词及其定义;
(2)基于提取出的语素信息,控制器进行语法分析及语义分析;
(3)语法分析和语义解释配合进行,语义随时指令推理,系统作出推论,同时,查询数据库;
(4)根据步骤(3)中的语法分析和语义解释,获得语义节点的层次;
(5)基于语义节点的层次,从语义数据库中查询与之匹配度最高的匹配模板;
(6)基于匹配模板,将步骤(1)中的语素分析结果反馈匹配到匹配模板中,实现对语言的理解。
2.根据权利要求1所述的一种基于语言结构的语言理解方法,其特征在于:所述步骤(1)中,对语素分析时,至少包括语素的提取以及语素之间关系的分析,其中,提取语素是基于单音节语素,双音节语素和多音节语素进行提取的,语素之间关系的分析至少包括分析语素之间是平等的、不分主次的联合关系、有主次之分的偏正关系、相互支配关系、相互陈述说明的陈述关系、相互补充说明的补充关系、事物之间计量关系、附加组合的组合关系还是重复语素的重叠式关系。
3.根据权利要求1所述的一种基于语言结构的语言理解方法,其特征在于:所述步骤(2)中,语法分析至少包括分析主语、谓语、宾语、述语以及它们之间的结构关系,语义分析至少包括分析动作行为、性质状态、施事、受事、工具、处所以及它们之间的关系。
4.根据权利要求1所述的一种基于语言结构的语言理解方法,其特征在于:所述步骤(3)中的数据库中,存储有语义解析标准指令、语义解析规则、语法解析标准指令和语法解析规则。
5.根据权利要求2所述的一种基于语言结构的语言理解方法,其特征在于:所述步骤(4)中,生成语义节点是根据步骤(3)中分析出来的语义逻辑关系、语义动态关系和语义静态关系进行生成,其中,语义逻辑关系的分析是通过与数据库中的逻辑词语进行一一比较,通过比较筛选出来的逻辑词语,语义动态关系是通过与数据库中的动词进行比较,筛选出来的动作词语,语义静态关系是通过与数据库中的名词进行比较,筛选出来的名词词语,基于这些名词、动词、逻辑词以及语言中的标点信息,以标点为导向优先考虑的对象,确定语言中的各个语义节点,以便将语言分割成由各个语义节点分开的语义。
6.根据权利要求5所述的一种基于语言结构的语言理解方法,其特征在于:所述步骤(4)中,当一个语言中包括多个动词时,需要先从数据库中的语义解析规则和语法解析规则中进行查询比较,寻找出最为核心的动词,基于该最为核心的动词,对各个语义节点进行设置。
7.根据权利要求1所述的一种基于语言结构的语言理解方法,其特征在于:所述步骤(5)中,采用一一映射与余弦相似度公式的方式进行计算匹配度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610283792.7A CN106021286B (zh) | 2016-04-29 | 2016-04-29 | 一种基于语言结构的语言理解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610283792.7A CN106021286B (zh) | 2016-04-29 | 2016-04-29 | 一种基于语言结构的语言理解方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106021286A true CN106021286A (zh) | 2016-10-12 |
CN106021286B CN106021286B (zh) | 2019-05-28 |
Family
ID=57081421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610283792.7A Expired - Fee Related CN106021286B (zh) | 2016-04-29 | 2016-04-29 | 一种基于语言结构的语言理解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106021286B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614463A (zh) * | 2018-10-24 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 文本匹配处理方法及装置 |
CN110991188A (zh) * | 2019-09-17 | 2020-04-10 | 国网浙江省电力有限公司杭州供电公司 | 应用于配网调度智能成票系统的成票方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040111255A1 (en) * | 2002-12-10 | 2004-06-10 | International Business Machines Corporation | Graph-based method for design, representation, and manipulation of NLU parser domains |
CN101499081A (zh) * | 2008-02-01 | 2009-08-05 | 北京乾坤化物数字技术有限公司 | 文字语言结构树的构建方法 |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
CN101847141A (zh) * | 2010-06-03 | 2010-09-29 | 复旦大学 | 中文词语语义相似度度量方法 |
CN102693311A (zh) * | 2012-05-28 | 2012-09-26 | 中国人民解放军信息工程大学 | 基于随机化视觉词典组和上下文语义信息的目标检索方法 |
CN102880599A (zh) * | 2011-07-12 | 2013-01-16 | 新诺亚舟科技(深圳)有限公司 | 用于解析句子并支持对该解析进行学习的句子探索方法 |
CN104142917A (zh) * | 2014-05-21 | 2014-11-12 | 北京师范大学 | 一种用于语言理解的层次语义树构建方法及系统 |
-
2016
- 2016-04-29 CN CN201610283792.7A patent/CN106021286B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040111255A1 (en) * | 2002-12-10 | 2004-06-10 | International Business Machines Corporation | Graph-based method for design, representation, and manipulation of NLU parser domains |
CN101499081A (zh) * | 2008-02-01 | 2009-08-05 | 北京乾坤化物数字技术有限公司 | 文字语言结构树的构建方法 |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
CN101847141A (zh) * | 2010-06-03 | 2010-09-29 | 复旦大学 | 中文词语语义相似度度量方法 |
CN102880599A (zh) * | 2011-07-12 | 2013-01-16 | 新诺亚舟科技(深圳)有限公司 | 用于解析句子并支持对该解析进行学习的句子探索方法 |
CN102693311A (zh) * | 2012-05-28 | 2012-09-26 | 中国人民解放军信息工程大学 | 基于随机化视觉词典组和上下文语义信息的目标检索方法 |
CN104142917A (zh) * | 2014-05-21 | 2014-11-12 | 北京师范大学 | 一种用于语言理解的层次语义树构建方法及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614463A (zh) * | 2018-10-24 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 文本匹配处理方法及装置 |
CN109614463B (zh) * | 2018-10-24 | 2023-02-03 | 创新先进技术有限公司 | 文本匹配处理方法及装置 |
CN110991188A (zh) * | 2019-09-17 | 2020-04-10 | 国网浙江省电力有限公司杭州供电公司 | 应用于配网调度智能成票系统的成票方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106021286B (zh) | 2019-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107038229B (zh) | 一种基于自然语义分析的用例提取方法 | |
CN110502642B (zh) | 一种基于依存句法分析与规则的实体关系抽取方法 | |
CN112183059B (zh) | 一种中文结构化事件抽取方法 | |
Mareček et al. | Extracting syntactic trees from transformer encoder self-attentions | |
JP2017049681A (ja) | 質問応答システムの訓練装置及びそのためのコンピュータプログラム | |
Abdelnabi et al. | Generating UML class diagram using NLP techniques and heuristic rules | |
JP2018195331A (ja) | 発話文生成装置とその方法とプログラム | |
CN108665141B (zh) | 一种从突发事件预案中自动抽取应急响应流程模型的方法 | |
CN105975475A (zh) | 基于中文短语串的细粒度主题信息抽取方法 | |
Al-Gaphari et al. | A method to convert Sana’ani accent to Modern Standard Arabic | |
Popescu-Belis et al. | Automatic identification of discourse markers in dialogues: An in-depth study of like and well | |
US20140236571A1 (en) | Inducing and Applying a Subject-Targeted Context Free Grammar | |
CN107480197B (zh) | 实体词识别方法及装置 | |
Palogiannidi et al. | Valence, arousal and dominance estimation for English, German, Greek, Portuguese and Spanish lexica using semantic models. | |
CN108491399A (zh) | 基于语境迭代分析的汉译英机器翻译方法 | |
Lee et al. | Who speaks like a style of vitamin: Towards syntax-aware dialogue summarization using multi-task learning | |
Antony et al. | A survey of advanced methods for efficient text summarization | |
Banerjee et al. | Generating abstractive summaries from meeting transcripts | |
CN106021286A (zh) | 一种基于语言结构的语言理解方法 | |
Bungum et al. | A survey of domain adaptation in machine translation: Towards a refinement of domain space | |
Ali et al. | AI-Natural Language Processing (NLP) | |
Wilson | Toward automatic processing of English metalanguage | |
Ma et al. | Essentia: mining domain-specific paraphrases with word-alignment graphs | |
Kardana et al. | A novel approach for keyword extraction in learning objects using text mining and WordNet | |
Shukla et al. | A Framework of Translator from English Speech to Sanskrit Text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190528 |
|
CF01 | Termination of patent right due to non-payment of annual fee |