CN103605781A - 一种隐式篇章关系类型推理方法及系统 - Google Patents
一种隐式篇章关系类型推理方法及系统 Download PDFInfo
- Publication number
- CN103605781A CN103605781A CN201310629360.3A CN201310629360A CN103605781A CN 103605781 A CN103605781 A CN 103605781A CN 201310629360 A CN201310629360 A CN 201310629360A CN 103605781 A CN103605781 A CN 103605781A
- Authority
- CN
- China
- Prior art keywords
- chapter
- english
- chinese
- implicit expression
- explicit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供了一种隐式篇章关系类型推理方法及系统,从中文和英文两个方面,在网络中检索与隐式篇章平行的显式篇章,再通过计算平行显式篇章与隐式篇章的相似度,选出与隐式篇章整体相似度最高的平行显式篇章,然后根据所述平行显式篇章的关系类型,来确定隐式篇章的关系类型。由于本发明提供的方法和系统,通过网络获得与隐式篇章相关的中文和英文篇章资源,因而,能够获得更多与隐式篇章相似度更高的显式篇章,从而提高了隐式篇章的关系类型推理的精确率。
Description
技术领域
本发明涉及自然语言处理技术领域,更具体地说,涉及一种隐式篇章关系类型推理方法及系统。
背景技术
目前,篇章关系分析是自然语言处理的一个核心问题。篇章是指由一系列连续子句、句子或语段构成的语言整体,篇章关系是指同一篇章中相邻的句子之间的语义连接关系,篇章关系类型分析是指自动检测同一篇章内相邻子句、句子或语段之间的组织结构及逻辑关系,如因果关系、转折关系等。
根据篇章中句子之间是否存在显式连接词(如因为、但是等),将篇章关系分为显式篇章关系和隐式篇章关系。在对显式篇章进行关系类型分析时,可直接根据显式连接词推断其具体关系类型,例如,显式篇章的显式连接词为“所以”,则显式篇章的关系类型为“因果关系”。但是,隐式篇章由于不具有显式连接词,因此,在对隐式篇章关系类型进行分析时,只能通过自然语言处理技术,结合语言学信息、具体的上下文语义信息以及相关领域知识进行推理,来识别隐式篇章关系的类型。
现有的隐式篇章关系类型推理均是采用监督学习的方法,即采用模版匹配的方法,从生语料库中抽取显式篇章,并直接去除显式篇章中的连接词,人为构成隐式篇章模版,来获得训练和测试数据,然后选择数据中的单词信息作为基本特征,来进行隐式篇章关系的分类。
由于现有的隐式篇章关系类型推理方法中,隐式篇章模版是根据生语料库中的显式篇章人为构建的,而数据库的资源又是有限的,因此,在对自然隐式篇章进行关系类型推理时,使得精确率较低。
发明内容
有鉴于此,本发明提供了一种隐式篇章关系类型推理方法及系统,以提高隐式篇章关系类型推理的精确率。
为实现上述目的,本发明提供如下技术方案:
一种隐式篇章关系类型推理方法,包括:
将英文隐式篇章翻译成中文隐式篇章,构建中文关键词和英文关键词,并根据所述关键词进行网络检索,获得中文篇章和英文篇章;
从所述中文篇章和英文篇章中,选出与所述中文隐式篇章对应的中文平行显式篇章以及与所述英文隐式篇章对应的英文平行显式篇章;
计算所述中文平行显式篇章与所述中文隐式篇章的相似度,以及所述英文平行显式篇章与所述英文隐式篇章的相似度,并选出整体相似度最高的若干个中文平行显式篇章和英文平行显式篇章;
检测并获得所述若干个中文平行显式篇章和英文平行显式篇章的关系类型,然后根据所述关系类型的分值,确定所述隐式篇章的关系类型。
优选的,所述构建中文关键词和英文关键词的过程,具体为:
选出所述中文隐式篇章的实词,并将所述实词任意组合,构建实词对,所述实词对即为中文关键词;
选出所述英文隐式篇章的二元组,并将所述二元组任意组合,构建二元组对,所述二元组对即为英文关键词,其中,所述二元组是由两个连续词汇构成。
优选的,所述选出与所述中文隐式篇章对应的中文平行显式篇章以及与所述英文隐式篇章对应的英文平行显式篇章的原则是:
所述篇章的两个句子之间由显式连接词衔接;
所述显式篇章的第一句具有与所述隐式篇章的第一句相同的二元组或实词;
所述显式篇章的第二句具有与所述隐式篇章的第二句相同的二元组或实词;
所述显式篇章中的两个句子分别与所述隐式篇章中的两个句子平行,即对应核心词相同;
其中,所述隐式篇章为具有两个相邻句子的隐式篇章,所述两个相邻的句子即为第一句和第二句。
优选的,所述计算所述中文显式篇章与所述中文隐式篇章的相似度,以及所述英文显式篇章与所述英文隐式篇章的相似度,具体为:
利用向量空间模型、词频反文档频率以及余弦夹角公式,计算所述中文显式篇章的第一句与所述中文隐式篇章的第一句的相似度,所述中文显式篇章的第二句与所述中文隐式篇章的第二句的相似度;
利用向量空间模型、词频反文档频率以及余弦夹角公式,计算所述英文显式篇章的第一句与所述英文隐式篇章的第一句的相似度,所述英文显式篇章的第二句与所述英文隐式篇章的第二句的相似度。
优选的,所述选出整体相似度最高的若干个中文显式篇章和英文显式篇章,具体为:
计算所述中文显式篇章与所述中文隐式篇章的整体相似度,以及所述英文显式篇章与所述英文隐式篇章的整体相似度,并选出整体相似度最高的若干个中文显式篇章和英文显式篇章。
优选的,所述根据所述关系类型的分值,确定所述隐式篇章的关系类型,具体为:
获得所述若干个中文平行显式篇章和英文平行显式篇章的关系类型后,计算各关系类型的分值,分值最高的关系类型即可确定为所述隐式篇章的关系类型。
一种隐式篇章关系类型推理系统,包括:
网络检索模块,用于将英文隐式篇章翻译成中文隐式篇章,构建中文关键词和英文关键词,并根据所述关键词进行网络检索,获得相关的中文篇章和英文篇章;
第一选择模块,用于从所述中文篇章和英文篇章中,选出与所述中文隐式篇章对应的中文显式篇章以及与所述英文隐式篇章对应的英文显式篇章;
第二选择模块,用于计算所述中文显式篇章与所述中文隐式篇章的相似度,以及所述英文显式篇章与所述英文隐式篇章的相似度,并选出整体相似度最高的若干个中文显式篇章和英文显式篇章;
检测模块,用于检测并获得所述若干个中文平行显式篇章和英文平行显式篇章的关系类型,然后根据所述关系类型的分值,确定所述隐式篇章的关系类型。
优选的,所述网络检索模块包括:
翻译模块,用于将英文隐式篇章翻译成中文隐式篇章;
关键词模块,用于根据所述中文隐式篇章和英文隐式篇章的关键信息,构建中文关键词和英文关键词;
检索子模块,用于根据所述中文关键词和英文关键词进行网络检索,获得相关的中文篇章和英文篇章。
优选的,所述关键词模块包括:
中文关键词模块,用于选出所述中文隐式篇章的实词,并将所述实词任意组合,构建实词对,所述实词对即为中文关键词;
英文关键词模块,用于选出所述英文隐式篇章的二元组,并将所述二元组任意组合,构建二元组对,所述二元组对即为英文关键词。
优选的,所述检索子模块包括:
中文检索子模块,用于根据所述中文关键词,利用百度搜索引擎,进行中文篇章的网络检索;
英文检索子模块,用于根据所述英文关键词,利用谷歌搜索引擎,进行英文篇章的网络检索。
与现有技术相比,本发明所提供的技术方案具有以下优点:
本发明所提供的隐式篇章关系类型推理方法及系统,从中文和英文两个方面,在网络中检索与隐式篇章平行的显式篇章,再通过计算平行显式篇章与隐式篇章的相似度,选出与隐式篇章整体相似度最高的平行显式篇章,然后根据所述平行显式篇章的关系类型,来确定隐式篇章的关系类型。由于本发明提供的方法和系统,通过网络获得与隐式篇章相关的中文和英文篇章资源,因而,能够获得更多与隐式篇章相似度更高的显式篇章,从而提高了隐式篇章的关系类型推理的精确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的隐式篇章关系类型推理方法流程图;
图2为本发明实施例二提供的隐式篇章关系类型推理系统结构示意图。
具体实施方式
正如背景技术所述,现有的隐式篇章关系类型推理均是采用监督学习的方法,即采用模版匹配的方法,从生语料库中抽取显式篇章,并直接去除显式篇章中的连接词,人为构成隐式篇章模版,来获得训练和测试数据,然后选择数据中的单词信息作为基本特征,来进行隐式篇章关系的分类。
对于隐式篇章的关系类型推理,一方面有利于理解隐式篇章的文本内容,以及根据文本内容的连贯性评估文本质量;另一方面还有利于辅助解决自然语言处理领域的其它问题,比如,因果关系可以用于自动问答系统,转折关系可以用于情感分析等。
但是,由于现有的隐式篇章关系类型分析方法中,隐式篇章模版是根据生语料库中的显式篇章人为构建的,而数据库的资源又是有限的,因此,在对自然隐式篇章进行关系类型分析时,使得精确率较低。
基于此,本发明提供了一种隐式篇章关系类型推理方法,以克服现有技术存在的上述问题,包括:
将英文隐式篇章翻译成中文隐式篇章,构建中文关键词和英文关键词,并根据所述关键词进行网络检索,获得中文篇章和英文篇章;
从所述中文篇章和英文篇章中,选出与所述中文隐式篇章平行的中文平行显式篇章以及与所述英文隐式篇章平行的英文平行显式篇章;
计算所述中文平行显式篇章与所述中文隐式篇章的相似度,以及所述英文平行显式篇章与所述英文隐式篇章的相似度,并选出整体相似度最高的若干个中文平行显式篇章和英文平行显式篇章;
检测并获得所述若干个中文平行显式篇章和英文平行显式篇章的关系类型,然后根据所述关系类型的分值,确定所述隐式篇章的关系类型。
本发明还提供了一种隐式篇章关系类型推理系统,与上述隐式篇章关系类型推理方法相适用,来克服现有技术存在的上述问题,包括:
网络检索模块,用于将英文隐式篇章翻译成中文隐式篇章,构建中文关键词和英文关键词,并根据所述关键词进行网络检索,获得相关的中文篇章和英文篇章;
第一选择模块,用于从所述中文篇章和英文篇章中,选出与所述中文隐式篇章平行的中文显式篇章以及与所述英文隐式篇章平行的英文显式篇章;
第二选择模块,用于计算所述中文显式篇章与所述中文隐式篇章的相似度,以及所述英文显式篇章与所述英文隐式篇章的相似度,并选出整体相似度最高的若干个中文显式篇章和英文显式篇章;
检测模块,用于检测并获得所述若干个中文平行显式篇章和英文平行显式篇章的关系类型,然后根据所述关系类型的分值,确定所述隐式篇章的关系类型。
本发明所提供的隐式篇章关系类型推理方法及系统,从中文和英文两个方面,在网络中检索与隐式篇章平行的显式篇章,再通过计算平行显式篇章与隐式篇章的相似度,选出与隐式篇章整体相似度最高的平行显式篇章,然后根据所述平行显式篇章的关系类型,来确定隐式篇章的关系类型。由于本发明提供的方法和系统,通过网络获得与隐式篇章相关的中文和英文篇章资源,因而,能够获得更多与隐式篇章相似度更高的显式篇章,从而提高了隐式篇章的关系类型分析的精确率。
以上是本发明的核心思想,为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
下面通过实施例来进行详细描述。
实施例一
本实施例提供了一种隐式篇章关系类型推理方法,来对隐式篇章的关系类型进行分析,其流程图如图1所示,包括如下步骤:
S101:将英文隐式篇章翻译成中文隐式篇章,构建中文关键词和英文关键词,并根据所述关键词进行网络检索,获得中文篇章和英文篇章;
网络中具有大量的篇章信息,为了从网络中检索出与英文隐式篇章相关的篇章,就要先构建这一隐式篇章的关键词。而为了获得更多的篇章资源,需从中文和英文两个方面,来检索篇章资源。
基于此,本实施例采用在线机器翻译工具对隐式篇章进行了翻译,所述隐式篇章为具有两个相邻句子的隐式篇章,所述两个相邻的句子即为第一句和第二句。将英文隐式篇章翻译成中文隐式篇章,然后根据中文隐式篇章和英文隐式篇章,构建中文关键词和英文关键词,然后再根据中文关键词从网络中检索获得与中文隐式篇章相关的中文篇章,根据英文关键词从网络中检索获得与英文隐式篇章相关的英文篇章。
其中,构建中文关键词和英文关键词的过程,具体为:选出所述中文隐式篇章的实词,并将所述实词任意组合,构建实词对,所述实词对即为中文关键词;选出所述英文隐式篇章的二元组,并将所述二元组任意组合,构建二元组对,所述二元组对即为英文关键词,其中,所述二元组是由两个连续词汇构成。
当隐式篇章是英文隐式篇章时,直接选出所述英文隐式篇章的两个句子的二元组,并将这些二元组按照笛卡尔积的方式进行任意组合,构成若干二元组对,每个二元组对均作为英文关键词,其中,所述二元组是指两个连续词汇构成的整体。
在构建翻译后的中文隐式篇章的中文关键词时,由于中文隐式篇章是通过在线机器翻译工具直接翻译而来,可能会缺失句式的结构信息,因此,不能再采用二元组对作为关键词,而是通过选出中文隐式篇章的两个句子的实词,并将所述实词按照笛卡尔积的方式进行任意组合,构建若干个实词对,每个实词对均作为中文关键词。并且,本实施例在构建中文关键词时,可以在实词对中融入中文连接词,来提高检索效率和检索质量。
通过关键词检索篇章资源的过程中,搜索引擎的选择尤为重要。结合隐式篇章特征以及现有搜索引擎的优缺点,本实施例中,利用百度搜索引擎,进行中文篇章的网络检索,利用谷歌搜索引擎,进行英文篇章的网络检索。另外,由于检索结果的摘要中包含了关键词及其相关的上下文信息,因此,为了更快更直接地获得篇章资源,本实施例选择检索结果的摘要集合作为选择显式篇章的语料资源。
S102:从所述中文篇章和英文篇章中,选出与所述中文隐式篇章平行的中文平行显式篇章以及与所述英文隐式篇章平行的英文平行显式篇章;
为了确保显式篇章与隐式篇章之间的相关性,本实施例通过平行显式篇章选取规则,选出与所述中文隐式篇章平行的中文平行显式篇章以及与所述英文隐式篇章平行的英文平行显式篇章,所述平行显式篇章选取规则,即选出的与隐式篇章平行的平行显示篇章必须同时满足以下四个条件:
一、篇章的两个句子之间由显式连接词衔接;
二、显式篇章的第一句具有与隐式篇章的第一句相同的实词或二元组;
三、显式篇章的第二句具有与隐式篇章的第二句相同的实词或二元组;
四、显式篇章的两个句子分别与隐式篇章的两个句子平行,即对应核心词相同。
若某一篇章满足条件一,则称该篇章为显式篇章;若该显式篇章同时满足条件二至四,则认为该显式篇章与隐式篇章语义平行,称其为平行显式篇章。
S103:计算所述中文平行显式篇章与所述中文隐式篇章的相似度,以及所述英文平行显式篇章与所述英文隐式篇章的相似度,并选出整体相似度最高的若干个中文平行显式篇章和英文平行显式篇章;
显式篇章与隐式篇章在句子结构以及语义层面的相似度,能够直接体现当前显式篇章的质量。因此,选出与所述中文隐式篇章对应的中文平行显式篇章以及与所述英文隐式篇章对应的英文平行显式篇章后,需要计算所述中文平行显式篇章与所述中文隐式篇章的相似度,以及所述英文平行显式篇章与所述英文隐式篇章的相似度,具体过程为:利用向量空间模型、词频反文档频率以及余弦夹角公式,计算所述中文显式篇章的第一句与所述中文隐式篇章的第一句的相似度,所述中文显式篇章的第二句与所述中文隐式篇章的第二句的相似度;利用向量空间模型、词频反文档频率以及余弦夹角公式,计算所述英文显式篇章的第一句与所述英文隐式篇章的第一句的相似度,所述英文显式篇章的第二句与所述英文隐式篇章的第二句的相似度。
利用向量空间模型、词频反文档频率以及余弦夹角公式,计算显式篇章的第一句与隐式篇章的第一句的相似度,以及计算显式篇章的第二句与隐式篇章的第二句的相似度的过程如下所示:
首先,利用向量空间模型,将显式篇章和隐式篇章的每个句子都映射为一个特征向量。将句子中的每个词都作为一个维度,即一个特征,将每个词的频率作为该词的权重,这样每个句子的词及频率就构成了一个n维向量:
Vector(s)=(feature1,w1;feature2,w2;…;featuren,wn);
其中,featurei表示第i维特征,wi表示对应的特征权重。
然后,利用词频反文档频率以及余弦夹角公式计算显式篇章与隐式篇章的相似度,余弦相似度计算方式(1)如下所示:
其中,wk(s)表示句子s的第k维的特征权重,所述特征权重一般采用词汇频率的布尔值或TFIDF值(term frequency–inverse document frequency,词汇频率的布尔值),TFIDF值的计算方式(2)如下所示:
wk(s)=TFIDF=(fre/length)×log2(Num/num) (2)
其中,fre表示词k在当前句子中出现的次数,length是当前句子的长度,Num是句子总个数,num表示包含该词的句子数。
本实施例中,计算英文显式篇章与英文隐式篇章的相似度时,采用二元组代替词来表示特征向量的每一维特征,此时,fre表示二元组在当前句子中出现的次数,num表示包含该二元组的句子总个数。
分别计算显式篇章的第一句与隐式篇章的第一句的相似度,以及计算显式篇章的第二句与隐式篇章的第二句的相似度后,还需计算显式篇章与隐式篇章的整体相似度,整体相似度Sim(E,I)的计算方式(3)如下所示:
其中,Sim(sE1,sI1)表示显式篇章的第一句与隐式篇章的第一句的语义相似度,而Sim(sE2,sI2)表示显式篇章的第二句与隐式篇章的第二句的语义相似度。分母中的指数函数可以避免分母为零,同时乘以2是将整体相似度进行归一化。另外,分母中|Sim(sE1,sI1)-Sim(sE2,sI2)|表示Sim(sE1,sI1)与Sim(sE2,sI2)的绝对差值,这种计算方式确保了Sim(sE1,sI1)和Sim(sE2,sI2)的一致性,也就是说,当且仅当Sim(sE1,sI1)与Sim(sE2,sI2)都较高时,整体相似度才会较高。
计算所述中文显式篇章与所述中文隐式篇章的整体相似度,以及所述英文显式篇章与所述英文隐式篇章的整体相似度后,选出整体相似度最高的若干个中文显式篇章和英文显式篇章。整体相似度越高,说明显式篇章与隐式篇章越相关,利用所述显式篇章推理得到的所述隐式篇章关系类型的置信度越高,因此,需按相似度排序,选择相似度最高的100个中文显式篇章和50个英文显式篇章,作为最终用于推理隐式篇章关系类型的平行显式篇章。
S104:检测并获得所述若干个中文平行显式篇章和英文平行显式篇章的关系类型,然后根据所述关系类型的分值,确定所述隐式篇章的关系类型。
显式篇章关系类型的检测,主要根据显式连接词与篇章关系类型之间的对应关系,例如,若显式篇章由连接词“likewise”衔接,则表明该显式篇章类型为扩展关系,若由连接词“although”衔接,则表示篇章关系类型为对比关系。
检测并获得所述若干个中文平行显式篇章和英文平行显式篇章的关系类型后,会得到若干个关系类型,为了根据显式篇章的关系类型确定隐式篇章的关系类型,就要通过计算各关系类型的分值,来获得若干个中文平行显式篇章和英文平行显式篇章中权重最大的关系类型,以此来达到提高隐式篇章关系类型分析精确率的目的。其中,中文显式篇章关系类型和英文显式篇章关系类型的权重设置的公式(4),如下所示:
其中,i表示篇章关系类型,如时序关系、扩展关系等,共k种关系类型。Si表示英文显式篇章中关系类型为i的显式篇章集合,Sim(E,I)表示Si集合中英文显式篇章与英文隐式篇章的相似度,θi为关系类型i对应的英文权重,而Si'表示中文显式篇章中关系类型为i的显式篇章集合,Sim(E',I')则表示Si'集合中中文显式篇章与中文隐式篇章的相似度,θi'为关系类型i对应的中文权重,且θi+θi'=1,Score(i)是在确定各关系类型的权重后,通过双语协作求得的各关系类型i的分值,分值最高的关系类型即为本实施例通过分析得出的隐式篇章关系类型。
本实施例所提供的隐式篇章关系类型推理方法,从中文和英文两个方面,在网络中检索与隐式篇章平行的显式篇章,再通过计算平行显式篇章与隐式篇章的相似度,选出与隐式篇章整体相似度最高的平行显式篇章,然后根据所述平行显式篇章的关系类型,来确定隐式篇章的关系类型。由于本实施例提供的方法,通过网络获得与隐式篇章相关的中文和英文篇章资源,因而,能够获得更多与隐式篇章相似度更高的显式篇章,从而提高了隐式篇章的关系类型分析的精确率。
实施例二
本实施例提供了一种隐式篇章关系类型推理系统,如图2所示,包括:网络检索模块21、第一选择模块22、第二选择模块23和检测模块24,其中,网络检索模块21用于将英文隐式篇章翻译成中文隐式篇章,构建中文关键词和英文关键词,并根据所述关键词进行网络检索,获得相关的中文篇章和英文篇章;第一选择模块22用于从所述中文篇章和英文篇章中,选出与所述中文隐式篇章对应的中文显式篇章以及与所述英文隐式篇章对应的英文显式篇章;第二选择模块23用于计算所述中文显式篇章与所述中文隐式篇章的相似度,以及所述英文显式篇章与所述英文隐式篇章的相似度,并选出整体相似度最高的若干个中文显式篇章和英文显式篇章;检测模块24用于检测并获得所述若干个中文平行显式篇章和英文平行显式篇章的关系类型,然后根据所述关系类型的分值,推理所述隐式篇章的关系类型。
网络检索模块21又包括:翻译模块、关键词模块和检索子模块,翻译模块用于将英文隐式篇章翻译成中文隐式篇章;关键词模块用于根据所述中文隐式篇章和英文隐式篇章的关键信息,构建中文关键词和英文关键词;检索子模块用于根据所述中文关键词和英文关键词进行网络检索,获得相关的中文篇章和英文篇章。
而关键词模块又包括:中文关键词模块和英文关键词模块,中文关键词模块用于选出所述中文隐式篇章的实词,并将所述实词任意组合,构建实词对,所述实词对即为中文关键词;英文关键词模块用于选出所述英文隐式篇章的二元组,并将所述二元组任意组合,构建二元组对,所述二元组对即为英文关键词。
检索子模块又包括:中文检索子模块和英文检索子模块,中文检索子模块用于根据所述中文关键词,利用百度搜索引擎,进行中文篇章的网络检索;英文检索子模块用于根据所述英文关键词,利用谷歌搜索引擎,进行英文篇章的网络检索。
本实施例所提供的隐式篇章关系类型推理系统,从中文和英文两个方面,在网络中检索与隐式篇章平行的显式篇章,再通过计算平行显式篇章与隐式篇章的相似度,选出与隐式篇章整体相似度最高的平行显式篇章,然后根据所述平行显式篇章的关系类型,来确定隐式篇章的关系类型。由于本实施例提供的系统,通过网络获得与隐式篇章相关的中文和英文篇章资源,因而,能够获得更多与隐式篇章相似度更高的显式篇章,从而提高了隐式篇章的关系类型分析的精确率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种隐式篇章关系类型推理方法,其特征在于,包括:
将英文隐式篇章翻译成中文隐式篇章,构建中文关键词和英文关键词,并根据所述关键词进行网络检索,获得中文篇章和英文篇章;
从所述中文篇章和英文篇章中,选出与所述中文隐式篇章对应的中文平行显式篇章以及与所述英文隐式篇章对应的英文平行显式篇章;
计算所述中文平行显式篇章与所述中文隐式篇章的相似度,以及所述英文平行显式篇章与所述英文隐式篇章的相似度,并选出整体相似度最高的若干个中文平行显式篇章和英文平行显式篇章;
检测并获得所述若干个中文平行显式篇章和英文平行显式篇章的关系类型,然后根据所述关系类型的分值,确定所述隐式篇章的关系类型。
2.根据权利要求1所述的方法,其特征在于,所述构建中文关键词和英文关键词的过程,具体为:
选出所述中文隐式篇章的实词,并将所述实词任意组合,构建实词对,所述实词对即为中文关键词;
选出所述英文隐式篇章的二元组,并将所述二元组任意组合,构建二元组对,所述二元组对即为英文关键词,其中,所述二元组是由两个连续词汇构成。
3.根据权利要求2所述的方法,其特征在于,所述选出与所述中文隐式篇章对应的中文平行显式篇章以及与所述英文隐式篇章对应的英文平行显式篇章的原则是:
所述篇章的两个句子之间由显式连接词衔接;
所述显式篇章的第一句具有与所述隐式篇章的第一句相同的二元组或实词;
所述显式篇章的第二句具有与所述隐式篇章的第二句相同的二元组或实词;
所述显式篇章中的两个句子分别与所述隐式篇章中的两个句子平行,即对应核心词相同;
其中,所述隐式篇章为具有两个相邻句子的隐式篇章,所述两个相邻的句子即为第一句和第二句。
4.根据权利要求3所述的方法,其特征在于,所述计算所述中文显式篇章与所述中文隐式篇章的相似度,以及所述英文显式篇章与所述英文隐式篇章的相似度,具体为:
利用向量空间模型、词频反文档频率以及余弦夹角公式,计算所述中文显式篇章的第一句与所述中文隐式篇章的第一句的相似度,所述中文显式篇章的第二句与所述中文隐式篇章的第二句的相似度;
利用向量空间模型、词频反文档频率以及余弦夹角公式,计算所述英文显式篇章的第一句与所述英文隐式篇章的第一句的相似度,所述英文显式篇章的第二句与所述英文隐式篇章的第二句的相似度。
5.根据权利要求4所述的方法,其特征在于,所述选出整体相似度最高的若干个中文显式篇章和英文显式篇章,具体为:
计算所述中文显式篇章与所述中文隐式篇章的整体相似度,以及所述英文显式篇章与所述英文隐式篇章的整体相似度,并选出整体相似度最高的若干个中文显式篇章和英文显式篇章。
6.根据权利要求5所述的方法,其特征在于,所述根据所述关系类型的分值,确定所述隐式篇章的关系类型,具体为:
获得所述若干个中文平行显式篇章和英文平行显式篇章的关系类型后,计算各关系类型的分值,分值最高的关系类型即可确定为所述隐式篇章的关系类型。
7.一种隐式篇章关系类型推理系统,其特征在于,包括:
网络检索模块,用于将英文隐式篇章翻译成中文隐式篇章,构建中文关键词和英文关键词,并根据所述关键词进行网络检索,获得相关的中文篇章和英文篇章;
第一选择模块,用于从所述中文篇章和英文篇章中,选出与所述中文隐式篇章对应的中文显式篇章以及与所述英文隐式篇章对应的英文显式篇章;
第二选择模块,用于计算所述中文显式篇章与所述中文隐式篇章的相似度,以及所述英文显式篇章与所述英文隐式篇章的相似度,并选出整体相似度最高的若干个中文显式篇章和英文显式篇章;
检测模块,用于检测并获得所述若干个中文平行显式篇章和英文平行显式篇章的关系类型,然后根据所述关系类型的分值,确定所述隐式篇章的关系类型。
8.根据权利要求7所述的系统,其特征在于,所述网络检索模块包括:
翻译模块,用于将英文隐式篇章翻译成中文隐式篇章;
关键词模块,用于根据所述中文隐式篇章和英文隐式篇章的关键信息,构建中文关键词和英文关键词;
检索子模块,用于根据所述中文关键词和英文关键词进行网络检索,获得相关的中文篇章和英文篇章。
9.根据权利要求8所述的系统,其特征在于,所述关键词模块包括:
中文关键词模块,用于选出所述中文隐式篇章的实词,并将所述实词任意组合,构建实词对,所述实词对即为中文关键词;
英文关键词模块,用于选出所述英文隐式篇章的二元组,并将所述二元组任意组合,构建二元组对,所述二元组对即为英文关键词。
10.根据权利要求9所述的系统,其特征在于,所述检索子模块包括:
中文检索子模块,用于根据所述中文关键词,利用百度搜索引擎,进行中文篇章的网络检索;
英文检索子模块,用于根据所述英文关键词,利用谷歌搜索引擎,进行英文篇章的网络检索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310629360.3A CN103605781A (zh) | 2013-11-29 | 2013-11-29 | 一种隐式篇章关系类型推理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310629360.3A CN103605781A (zh) | 2013-11-29 | 2013-11-29 | 一种隐式篇章关系类型推理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103605781A true CN103605781A (zh) | 2014-02-26 |
Family
ID=50124003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310629360.3A Pending CN103605781A (zh) | 2013-11-29 | 2013-11-29 | 一种隐式篇章关系类型推理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103605781A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021116A (zh) * | 2014-06-19 | 2014-09-03 | 苏州大学 | 一种外延事件关系识别方法及系统 |
CN104317890A (zh) * | 2014-10-23 | 2015-01-28 | 苏州大学 | 一种文本连接词的识别方法及装置 |
CN104915337A (zh) * | 2015-06-18 | 2015-09-16 | 中国科学院自动化研究所 | 基于双语篇章结构信息的译文篇章完整性评估方法 |
CN105955956A (zh) * | 2016-05-05 | 2016-09-21 | 中国科学院自动化研究所 | 一种汉语隐式篇章关系识别方法 |
CN106326212A (zh) * | 2016-08-26 | 2017-01-11 | 北京理工大学 | 一种基于层次深度语义的隐式篇章关系分析方法 |
CN104090868B (zh) * | 2014-08-04 | 2017-06-16 | 苏州大学 | 一种隐式篇章关系的分析方法及系统 |
CN107168956A (zh) * | 2017-05-26 | 2017-09-15 | 北京理工大学 | 一种基于管道的中文篇章结构分析方法及系统 |
WO2019000240A1 (zh) * | 2017-06-27 | 2019-01-03 | 华为技术有限公司 | 一种问答系统及问答方法 |
CN113255371A (zh) * | 2021-07-14 | 2021-08-13 | 华东交通大学 | 一种半监督的中英文隐式篇章关系识别方法与系统 |
CN114429152A (zh) * | 2021-12-31 | 2022-05-03 | 苏州大学 | 基于动态指数对抗性自适应的滚动轴承故障诊断方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6154720A (en) * | 1995-06-13 | 2000-11-28 | Sharp Kabushiki Kaisha | Conversational sentence translation apparatus allowing the user to freely input a sentence to be translated |
CN101499058A (zh) * | 2009-03-05 | 2009-08-05 | 北京理工大学 | 一种基于类型论的汉语分词方法 |
CN101520779A (zh) * | 2009-04-17 | 2009-09-02 | 哈尔滨工业大学 | 一种机器翻译自动诊断评价方法 |
CN101667177A (zh) * | 2009-09-23 | 2010-03-10 | 清华大学 | 双语文本的对齐方法及装置 |
-
2013
- 2013-11-29 CN CN201310629360.3A patent/CN103605781A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6154720A (en) * | 1995-06-13 | 2000-11-28 | Sharp Kabushiki Kaisha | Conversational sentence translation apparatus allowing the user to freely input a sentence to be translated |
CN101499058A (zh) * | 2009-03-05 | 2009-08-05 | 北京理工大学 | 一种基于类型论的汉语分词方法 |
CN101520779A (zh) * | 2009-04-17 | 2009-09-02 | 哈尔滨工业大学 | 一种机器翻译自动诊断评价方法 |
CN101667177A (zh) * | 2009-09-23 | 2010-03-10 | 清华大学 | 双语文本的对齐方法及装置 |
Non-Patent Citations (1)
Title |
---|
周小佩: "基于平行推理机制的隐式篇章关系检测研究", 《万方学位论文》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021116A (zh) * | 2014-06-19 | 2014-09-03 | 苏州大学 | 一种外延事件关系识别方法及系统 |
CN104090868B (zh) * | 2014-08-04 | 2017-06-16 | 苏州大学 | 一种隐式篇章关系的分析方法及系统 |
CN104317890A (zh) * | 2014-10-23 | 2015-01-28 | 苏州大学 | 一种文本连接词的识别方法及装置 |
CN104317890B (zh) * | 2014-10-23 | 2018-05-01 | 苏州大学 | 一种文本连接词的识别方法及装置 |
CN104915337A (zh) * | 2015-06-18 | 2015-09-16 | 中国科学院自动化研究所 | 基于双语篇章结构信息的译文篇章完整性评估方法 |
CN104915337B (zh) * | 2015-06-18 | 2017-12-05 | 中国科学院自动化研究所 | 基于双语篇章结构信息的译文篇章完整性评估方法 |
CN105955956B (zh) * | 2016-05-05 | 2019-01-22 | 中国科学院自动化研究所 | 一种汉语隐式篇章关系识别方法 |
CN105955956A (zh) * | 2016-05-05 | 2016-09-21 | 中国科学院自动化研究所 | 一种汉语隐式篇章关系识别方法 |
CN106326212A (zh) * | 2016-08-26 | 2017-01-11 | 北京理工大学 | 一种基于层次深度语义的隐式篇章关系分析方法 |
CN107168956A (zh) * | 2017-05-26 | 2017-09-15 | 北京理工大学 | 一种基于管道的中文篇章结构分析方法及系统 |
CN107168956B (zh) * | 2017-05-26 | 2020-06-02 | 北京理工大学 | 一种基于管道的中文篇章结构分析方法及系统 |
WO2019000240A1 (zh) * | 2017-06-27 | 2019-01-03 | 华为技术有限公司 | 一种问答系统及问答方法 |
CN113255371A (zh) * | 2021-07-14 | 2021-08-13 | 华东交通大学 | 一种半监督的中英文隐式篇章关系识别方法与系统 |
CN113255371B (zh) * | 2021-07-14 | 2021-09-24 | 华东交通大学 | 一种半监督的中英文隐式篇章关系识别方法与系统 |
CN114429152A (zh) * | 2021-12-31 | 2022-05-03 | 苏州大学 | 基于动态指数对抗性自适应的滚动轴承故障诊断方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103605781A (zh) | 一种隐式篇章关系类型推理方法及系统 | |
US11016966B2 (en) | Semantic analysis-based query result retrieval for natural language procedural queries | |
US10706090B2 (en) | Method and device for locating an answer based on question and answer | |
CN109344236B (zh) | 一种基于多种特征的问题相似度计算方法 | |
CN107993724B (zh) | 一种医学智能问答数据处理的方法及装置 | |
CN106649786B (zh) | 基于深度问答的答案检索方法及装置 | |
KR102094934B1 (ko) | 자연어 질의 응답 시스템 및 방법 | |
CN106776532B (zh) | 一种知识问答方法及装置 | |
WO2021073254A1 (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
US20170308607A1 (en) | Method and System for a Semantic Search Engine | |
JP2017511922A (ja) | スマート質問回答の実現方法、システム、および記憶媒体 | |
García et al. | A lexicon based sentiment analysis retrieval system for tourism domain | |
CN106815252A (zh) | 一种搜索方法和设备 | |
JPWO2014033799A1 (ja) | 単語意味関係抽出装置 | |
CN103886099B (zh) | 一种模糊概念的语义检索系统及方法 | |
CN103810218A (zh) | 一种基于问题簇的自动问答方法和装置 | |
KR102457821B1 (ko) | 자연어 이해 및 질의응답 기반의 의사결정 지원 장치 및 방법 | |
CN104572631A (zh) | 一种语言模型的训练方法及系统 | |
CN112883182A (zh) | 一种基于机器阅读的问答匹配方法及装置 | |
Yusuf et al. | Query expansion method for quran search using semantic search and lucene ranking | |
Chen et al. | A synergistic framework for geographic question answering | |
CN112084312B (zh) | 一种基于知识图构建的智能客服系统 | |
JP2016115294A (ja) | 情報検索方法及びデバイス | |
CN106776590A (zh) | 一种获取词条译文的方法及系统 | |
Christophe et al. | A methodology supporting syntactic, lexical and semantic clarification of requirements in systems engineering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140226 |
|
RJ01 | Rejection of invention patent application after publication |