CN103678270A - 语义单元抽取方法和语义单元抽取设备 - Google Patents

语义单元抽取方法和语义单元抽取设备 Download PDF

Info

Publication number
CN103678270A
CN103678270A CN201210320606.4A CN201210320606A CN103678270A CN 103678270 A CN103678270 A CN 103678270A CN 201210320606 A CN201210320606 A CN 201210320606A CN 103678270 A CN103678270 A CN 103678270A
Authority
CN
China
Prior art keywords
sentence
word
language
semantic primitive
target language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210320606.4A
Other languages
English (en)
Other versions
CN103678270B (zh
Inventor
葛乃晟
付亦雯
郑仲光
孟遥
于浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201210320606.4A priority Critical patent/CN103678270B/zh
Publication of CN103678270A publication Critical patent/CN103678270A/zh
Application granted granted Critical
Publication of CN103678270B publication Critical patent/CN103678270B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种语义单元抽取方法和语义单元抽取设备。所述语义单元抽取方法包括:输入经过分词的目标语言的句子;获得与目标语言的句子对应的参考语言的句子;对参考语言的句子进行词性标注;获得目标语言的句子和参考语言的句子之间的词对齐关系;以及根据参考语言的句子的词性标注结果,借助于词对齐关系,抽取目标语言的句子的语义单元。

Description

语义单元抽取方法和语义单元抽取设备
技术领域
本发明一般地涉及自然语言处理领域。更具体地说,本发明涉及用于抽取语义单元的方法和设备。
背景技术
在自然语言处理中,以汉语为代表的一些语言存在着分词和词性标注不准确的问题。例如,当以语料进行训练并基于训练结果进行分词和词性标注时,如果训练语料中不包含特定的专有名词,则该专有名词很可能不会被正确地分为一个词。并且,不同的人对分词有着不同的标准,难以以统一标准进行分词。分词和词性标注结果的不准确以及标准不统一不利于针对汉语文献进行自然语言处理及相关应用处理,诸如句法分析、文本分析、文本改写、机器翻译、数据挖掘、主题词获取、搜索等。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的发明人意识到现有技术中分词及词性标注技术的相关不足可以在语义层次上进行克服。可以在分词处理后的词的基础上,进行语义单元抽取处理,抽取出的语义单元从语义的角度出发,故而具有统一的标准,并且准确地符合句子的语义。
本发明的目的是提供一种语义单元抽取方法和设备,其能够抽取出句子中的语义单元,使得基于词的处理可以变为基于语义单元的处理,从而提高了句法分析、文本分析、文本改写、机器翻译、数据挖掘、主题词获取、搜索等自然语言处理及相关应用处理的效果。
为了实现上述目的,根据本发明的一个方面,提供一种语义单元抽取方法,包括:输入经过分词的目标语言的句子;获得与目标语言的句子对应的参考语言的句子;对参考语言的句子进行词性标注;获得目标语言的句子和参考语言的句子之间的词对齐关系;以及根据参考语言的句子的词性标注结果,借助于词对齐关系,抽取目标语言的句子的语义单元。
根据本发明的另一方面,提供一种语义单元抽取设备,包括:目标语言输入单元,被配置为输入经过分词的目标语言的句子;参考语言获取单元,被配置为获得与目标语言的句子对应的参考语言的句子;词性标注单元,被配置为对参考语言的句子进行词性标注;词对齐关系获取单元,被配置为获得目标语言的句子和参考语言的句子之间的词对齐关系;以及抽取单元,被配置为根据参考语言的句子的词性标注结果,借助于词对齐关系,抽取目标语言的句子的语义单元。
另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
在下面的说明书部分中给出本发明的其他方面,其中,详细说明用于充分地公开本发明的优选实施例,而不对其施加限定。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:
图1是示出根据本发明的语义单元抽取方法的流程图;
图2是示出根据本发明的语义单元抽取方法的抽取语义单元步骤的详细流程图;
图3是示出根据本发明的语义单元抽取设备的示例结构的图;
图4是示出根据本发明的语义单元抽取设备的抽取单元的示例结构的图;以及
图5是示出个人计算机的示例性结构的框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与设备及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。另外,还需要指出的是,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或多个其它附图或实施方式中示出的元素和特征相结合。
如上所述,现有技术中存在分词标准不统一、词性标注不准确的问题。本发明的发明人提出了语义单元的概念,通过将句子的组成元素抽象为语义单元,可以抽取出例如专有名词等原本并不知晓的句子组成元素,并且使得句子的结构更加明晰,组成句子的元素数更少。这样的句子进行句法分析,显然速度更快,结果更准。基于例如专有名词的语义单元的文本分析、文本改写、机器翻译、数据挖掘、主题词获取、搜索等相关技术的效果更好。
这里,语义单元被定义为在词之上的结构单元,其具有特定的语法特征,如词性特征(下文中简称为语义单元的词性),既可以是单个词,也可以是词组、专有名词等多词单元。可见,语义单元有别于作为分词结果的词。
然而,直接根据分词的结果进行语义单元的抽取,难免受到现有分词技术不准确的影响,发明人考虑可以借助于参考语言来抽取语义单元。
参考语言的要求是不需要分词或分词准确率高,并且参考语言的词性标注准确率高。这样,可以借助于参考语言的分词和词性标注的结果,提取目标语言(即待处理的语言)的句子中的语义单元。
参考语言例如是英语、法语、德语等。目标语言例如是汉语、日语等。
下面参照图1详细描述根据本发明的语义单元抽取方法的细节。
图1示出了根据本发明的语义单元抽取方法的流程图。
根据本发明的语义单元抽取方法包括:输入经过分词的目标语言的句子(步骤S1);获得与目标语言的句子对应的参考语言的句子(步骤S2);对参考语言的句子进行词性标注(步骤S3);获得目标语言的句子和参考语言的句子之间的词对齐关系(步骤S4);以及根据参考语言的句子的词性标注结果,借助于词对齐关系,抽取目标语言的句子的语义单元(步骤S5)。
在步骤S1中,输入要从中抽取语义单元的目标语言的句子。
这样的句子应先进行初步的分词,以作为后续处理的基础。分词为本领域技术人员所熟知,此处可以采用任何针对目标语言的现有分词方法。
分词之后的句子的组成元素是词,词可以分为单字词、双字词、多字词等。
在步骤S2中,获得与目标语言的句子对应的参考语言的句子。
此处的获取方法可以是最初即获得作为双语句对的目标语言的句子和对应的参考语言的句子,也可以通过将目标语言的句子借助于人工翻译或机器翻译来翻译为参考语言的句子。也可以采用其它适当的方法,只要能获得与目标语言的句子对应的参考语言的句子即可。
优选地,采用统计机器翻译方法获得与目标语言的句子对应的参考语言的句子。采用统计机器翻译的方法,可以在获得目标语言的句子对应的参考语言的句子的同时,获得它们之间的词对齐关系。
这是因为统计机器翻译的必要步骤是进行词对齐,而且统计机器翻译的词与词之间的翻译准确率较高、词对齐效果较好。因此,在此基础上进行本发明的后续处理能取得更好的效果,并且不必进行单独的词对齐处理以获得词对齐关系。
在步骤S3中,对参考语言的句子进行词性标注。
这一步骤是为了将来借助于参考语言的词的词性标注结果抽取目标语言的句子中的语义单元并确定语义单元的词性。
此外,如上所述,参考语言选取不需要分词或分词准确率高、并且词性标注准确率高的语言。如果参考语言需要分词,则在对参考语言的句子进行词性标注之前,还需对参考语言的句子进行分词。
类似地,参考语言的分词和词性标注可以采用能够实现此功能的任何方法。
在步骤S4中,获得目标语言的句子和参考语言的句子之间的词对齐关系。
词对齐关系是连接目标语言的句子的组成元素和参考语言的句子的组成元素之间的桥梁,通过词对齐可以确定目标语言的句子的组成元素和参考语言的句子的组成元素之间的对齐关系,从而借助于参考语言抽取目标语言的句子中的语义单元。
如上所述,当采用统计机器翻译方法获得与目标语言的句子对应的参考语言的句子的情况下,可以从中获取句子之间的词对齐关系来执行步骤S4。
当然,前提是能够从统计机器翻译系统中获得作为中间结果的词对齐关系。如果统计机器翻译系统没有提供这样的输出或接口,则可通过其他词对齐技术对目标语言的句子和通过统计机器翻译获得的参考语言的句子进行词对齐处理,以获得词对齐关系。
对于并不具有现成的词对齐关系的目标语言和参考语言的双语句对,可以利用任何适当的词对齐技术来对目标语言的句子和参考语言的句子进行词级对齐,以获得词对齐关系。
目前较为常见的词对齐技术是GIZA++。GIZA++是单向的词对齐技术,采用GIZA++对双语句对进行词对齐时,需要从目标语言到参考语言执行一次处理,再从参考语言到目标语言执行一次处理,然后将两次处理的对齐结果进行整合,以获得双语句对的词对齐关系。
此外,在词对齐处理中,可能会出现这样的情形,即目标语言句子中的某个词,并没有在词对齐处理中找到参考语言句子中与之对齐的词。如上所述,借助于对齐关系,利用参考语言的句子的组成元素来抽取目标语言的句子中的语义单元。如果目标语言的句子中的词没有与之对齐的参考语言词,则可能会导致它周围的词本应却不能被抽取到一个语义单元中,因为它将本应属于同一个语义单元的两个或更多个词“隔开”。
为了解决这样的问题,以抽取出更大跨度的语义单元,在词对齐步骤中,还进行如下可选的处理:对于目标语言的句子中的、参考语言句子中没有与之对齐的词的、且不属于停词表的词,在参考语言句子中与这样的词的左邻词对齐的词的右侧,创建名词词性的空节点与这样的词对齐。
停词表定义了不需要对其创建空节点的词的集合。排除了停词表中的词是为了避免增加一些不必要的空节点,以免抽出错误的语义单元。以汉语为例,停词表包括虚词以及明显不是名词的实词。虚词包括助词、介词、连词等。实词包括名词、形容词、副词、动词等。明显不是名词的实词,例如是作为副词的“就”、作为动词的“进行”等,这样的词显然不会作为语义单元的一部分连接语义单元的另外两个部分。
对于符合上述条件的目标语言词,可在参考语言句子中为其创建与之对齐的空节点。空节点的位置可选择为与这样的目标语言词的左邻目标语言词对齐的参考语言词的右侧,即这样的目标语言词的左邻目标语言词与创建的空节点的左邻参考语言词对齐。并且,将空节点均设置为名词词性。
在步骤S5中,根据参考语言的句子的词性标注结果,借助于词对齐关系,抽取目标语言的句子的语义单元。
图2示出了抽取语义单元步骤的详细流程图。
参考语言的句子和目标语言的句子之间的词对齐关系可能是一个参考语言词对齐一个目标语言词(下文中简称为一对一)、一个参考语言词对齐多个目标语言词(下文中简称为一对多)、多个参考语言词对齐多个目标语言词(下文中简称为多对多)、多个参考语言词对齐一个目标语言词(下文中简称为多对一)。
由于本发明主要是为了抽取目标语言的句子的语义单元,语义单元可以是一个词或多个词。因此,通常不考虑上述多对一的情况,在下面针对其它三种情况进行语义单元的抽取。
在步骤S21中,针对一对多的情况进行一对多抽取。
一对多抽取是针对一对多对齐关系的参考语言词和目标语言词抽取语义单元。具体地,对于词对齐关系表明一个参考语言词对应于连续的多个目标语言词、所述多个目标语言词仅对应于该参考语言词(即所述多个目标语言词不与其它参考语言词对应),且该参考语言词的词性是名词、形容词或副词的情况,将所述连续的多个目标语言词确定为一个语义单元,将该语义单元的词性确定为该参考语言词的词性,并将该语义单元视为目标语言的句子中的一个词。
由于参考语言词为一个词,而与之对应的目标语言词是多个连续词,因此,容易推断这些连续的目标语言词更可能是一个有机的整体。由于作为实词的名词、形容词、副词在句子中的地位较为重要,对齐关系准确率、高,其信息可覆盖句子大部分含义,因此,重点抽取这三种词性的语义单元。
故将仅与一个词性为名词、形容词或副词的参考语言词对齐的连续的多个目标语言词确定为一个语义单元。
又因为本发明借助于参考语言来推断目标语言,因此,将该语义单元的词性确定为该参考语言词的词性。
语义单元被抽取出来之后,可将其视为目标语言的句子中的一个词,以便于后续处理。准确地说,语义单元是句子的组成单位。本发明从句子中抽取语义单元,使得在语义单元的层次上处理和分析句子。
应注意,词对齐关系通常通过分词后的词的序号来表征,由于一对多抽取以及后面的多对多抽取会导致被合成为一个语义单元的多个词变为一个整体,相应地会使用一个序号来标记该语义单元,因此,还需对目标语言和参考语言的句子中的各个词或语义单元的序号进行适应性的调整,并且适应性地调整对齐关系中标记的序号,保持之前获得的词对齐关系。也就是说词对齐关系并未因语义单元抽取而变化,但表征词对齐关系的序号需要在每次一对多抽取和多对多抽取后进行适应性调整。
经过步骤S21,可以抽取出一部分语义单元。下面,在步骤S22中,针对多对多的情况进行多对多抽取。
多对多抽取是对于词对齐关系表明连续的多个参考语言词对应于连续的多个目标语言词、且所述多个参考语言词符合预定义模板的情况,将所述连续的多个目标语言词确定为一个语义单元,根据所述多个参考语言词的词性确定该语义单元的词性,并将该语义单元视为目标语言的句子中的一个词。
多对多对齐关系相对比较复杂,因为对齐的目标语言词并不是一个词,故对齐的多个参考语言词并不一定是一个语义单元。因此,需要借助于预定义模板来定义何种结构的多个连续参考语言词构成一个参考语言句子中的语义单元,并且其对应的多个连续目标语言词构成一个目标语言句子中的语义单元。只有符合预定义模板的多个连续参考语言词对齐的多个连续目标语言词才应被确定为一个语义单元。
可见,预定义模板对于多对多对齐关系情况下的语义单元抽取的数量和质量比较重要。可以基于参考语言的语法定义预定义模板。符合预定义模板的多个词构成符合参考语言语法的名词词组、形容词词组、副词词组或专有名词。本领域技术人员能够根据语言学的知识和本发明的要求,构建适当的预定义模板。
同样,因为名词、形容词、副词、专有名词是句子中的重要部分,重点抽取这三种类型的语义单元,故预定义模板应主要定义这三方面的模式。
作为示例,给出其中的一种模式:“JJNN+”。JJ表示形容词,NN表示名词,JJNN表示连续的一个形容词和一个名词。JJNN+表示连续的一个形容词和连续的多个名词。
作为示例,假设分词、词性标注和词对齐的结果表明:“solid/JJform/NN固体形式39:5040:51”。其中,“39:5040:51”通过序号表明词对齐关系。作为参考语言的英文“solid”是形容词,与作为目标语言的汉语“固体”对齐(39:50),“form”是名词,与“形式”对齐(40:51)。
可见,上述参考语言词和目标语言词符合上述预定义的模式。因此,将“固体形式”抽取为一个语义单元。
在多对多抽取中,根据多个参考语言词的词性确定抽取出的语义单元的词性。例如,JJNN模式中名词为主干词,因此,将JJNN模式抽取出的语义单元的词性确定为名词。
下面,针对上面提到的空节点的作用进行解释说明。
作为示例,假设分词、词性标注和词对齐的结果表明:“polyvinyl/NN”对应“聚乙烯”,“pyrrolidone/NN”对应“咯烷酮”,“polyvinyl”与“pyrrolidone”连续,但是“聚乙烯”和“咯烷酮”之间还有“基吡”。实际上“聚乙烯基吡咯烷酮”应该是一个语义单元,但是“基吡”并没有与之对齐的英文词。这样就无法抽取出本应抽取出的语义单元“聚乙烯基吡咯烷酮”。
但是,由于上述步骤S4中设置了空节点,形成了“polyvinyl/JJEMPTY/NN pyrrolidone/NN”结构,这符合预定义模板中的“JJNN+”模式,因此,可以从中抽取出“聚乙烯基吡咯烷酮”这一语义单元。
应注意,在步骤S21中针对一对多的情况进行一对多抽取,并且抽取出来的语义单元会被视为一个词,这个词可能与其前后的词(含被视为词的语义单元)符合预定义模板中的模式,从而参与到步骤S22中的多对多抽取中,形成更大的语义单元的一部分。
作为示例,假设分词、词性标注、词对齐的结果是“antimicrobial/JJ”与两个连续的汉语词“抗”和“微生物”相对齐,因此,可以在步骤S21中,以一对多抽取方式抽取出语义单元“抗微生物”。
然而,“抗微生物”后还有一个词“剂”,其与“antimicrobial/JJ”后面的“agent/NN”对应。事实上,“抗微生物剂”应被作为一个更大的语义单元抽取出来。
因此,在步骤S21中通过一对多抽取将“抗微生物”抽取为一个语义单元并将其视为一个词后,“antimicrobial/JJ agent/NN”与“抗微生物剂”形成了多对多的“JJNN”模式,故可在步骤S22中抽取出“抗微生物剂”这一语义单元。
应注意,上述步骤S21和步骤S22的执行顺序是先进行一对多抽取,再进行多对多抽取,其中的一种情形是一对多抽取出的语义单元参与到了后续的多对多抽取中,形成为更大的语义单元的一部分。但是,步骤S21和步骤S22的顺序可以互换,即可以先执行步骤S22的多对多抽取,再执行步骤S21的一对多抽取。
仍以“antimicrobial/JJ agent/NN”与“抗微生物剂”为例。“antimicrobial/JJ”与两个连续的汉语词“抗”和“微生物”相对齐,“agent/NN”与“剂”相对齐,“antimicrobial/JJ agent/NN”形成多对多的“JJNN”模式,符合预定义的模板,“抗微生物剂”形成连续的三个汉语词,故“antimicrobial/JJ agent/NN”与“抗微生物剂”符合本发明的多对多抽取条件。
因此,可在先执行的步骤S22中,将“antimicrobial agent”抽取为一个英语语义单元,将与之对应的“抗微生物剂”抽取为一个汉语语义单元。
而在后执行的步骤S21中,可以针对其它一对多对应关系,按上面详细描述的方式进行一对多抽取。
经上述步骤S21和S22抽取出的语义单元反映了句子结构中原本单个词不能体现出的句子结构,将部分单个词合并为语义单元作为更高层次的句子组成元素。这有利于后续进行各种自然语言处理和相关处理,因为句子的结构更加明晰,表征句子内容的元素更为准确。
为了便于之后统一以语义单元为单位进行处理,可以针对一对一的情况,进行可选的步骤S23。
在步骤S23中,对于词对齐关系表明一个参考语言词对应于一个目标语言词、且该参考语言词的词性是名词、形容词或副词的情况,将该目标语言词确定为一个语义单元,将该语义单元的词性确定为该参考语言词的词性。
由于在本发明中假设参考语言的词性标注更为准确,利用参考语言的句子的分词和词性标注结果对目标语言的句子进行修正,因此,当一个参考语言词与一个目标语言词对齐时,认为该目标语言词构成的语义单元的词性是相应的参考语言词的词性。
经过上述处理,抽取出的语义单元可能存在一定的不符合目标语言语法的结构,例如“的氨基核苷酸”。因此,进行可选的步骤S24。
在步骤S24中,按照目标语言的语法,对抽取出的语义单元进行调整。
这里的调整是在参照参考语言抽取语义单元后,从目标语言本身的角度,对抽取出的语义单元进行的调整,例如去除“的氨基核苷酸”中的“的”。本领域技术人员可以根据目标语言的语法进行任何适当的调整处理。
本领域技术人员可以理解,抽取出语义单元后,句子的结构变得更加明晰。此外,现有的分词方法依赖于标注好的训练语料,如果语料中没有专有名词或没有标注出专有名词,则分词处理无法得到句子中的专有名词。而专有名词数量大、领域广、很难穷举,因此,很难针对所有的专有名词进行训练。然而,根据本发明的语义单元抽取方法,可以将专有名词作为一个语义单元抽取出来,因此句子的组成元素更加准确。相对于词而言,语义单元能够在较高的层次上帮助对句子进行分析和处理。
因此,可以预见,在对句子、段落、文献进行根据本发明的语义单元抽取之后,再在语义单元的基础上进行数据挖掘、主题词获取、搜索、句法分析、机器翻译等工作时,效果将有显著提高。
因此,本发明还提供了如下的数据挖掘方法,包括:利用根据本发明的语义单元抽取方法对待处理的文献抽取语义单元,以及基于所抽取的语义单元,进行数据挖掘。
本发明还提供了如下的主题词获取方法,包括:利用根据本发明的语义单元抽取方法对待处理的文献抽取语义单元,以及基于所抽取的语义单元,获取文献的主题词。获得的文献主题词可以用于计算文献的相似度,对文献进行聚类等。
本发明还提供了如下的搜索方法,包括:利用根据本发明的语义单元抽取方法对可被搜索的文献抽取语义单元,以及基于所抽取的语义单元,对文献进行搜索。在使用某一领域的专有名词对大量文献进行搜索时,如果可被搜索的文献基于语义单元标记,则更容易被搜索到。反之,如果专有名词被割裂为2个甚至更多的词,则可能搜索不到相关文献。
本发明还提供了如下的句法分析方法,包括:利用根据本发明的语义单元抽取方法对待处理的文献抽取语义单元,以及基于所抽取的语义单元,进行句法分析。例如,科技文献中存在大量专有名词,加大了句法分析的难度,然而如果专有名词作为语义单元被抽取出来,则句子的结构将会被简化,句法分析的效果更好。
本发明还提供了如下的机器翻译方法,包括:利用根据本发明的语义单元抽取方法对训练语料抽取语义单元,以及基于所抽取的语义单元,训练机器翻译设备。由于这样的语料包含例如专有名词,因此机器翻译的效果会得到提高。
下面将参照图3简述根据本发明的语义单元抽取设备。
图3示出了根据本发明的语义单元抽取设备的示例结构图。
语义单元抽取设备30包括:目标语言输入单元31,被配置为输入经过分词的目标语言的句子;参考语言获取单元32,被配置为获得与目标语言的句子对应的参考语言的句子;词性标注单元33,被配置为对参考语言的句子进行词性标注;词对齐关系获取单元34,被配置为获得目标语言的句子和参考语言的句子之间的词对齐关系;以及抽取单元35,被配置为根据参考语言的句子的词性标注结果,借助于词对齐关系,抽取目标语言的句子的语义单元。
在一个示例中,语义单元抽取设备30还包括:分词单元36,被配置为对参考语言的句子进行分词。
在一个示例中,词对齐关系获取单元34包括:词对齐单元,被配置为对目标语言的句子和参考语言的句子进行词级对齐,以获得词对齐关系。
在一个示例中,参考语言获取单元32被进一步配置为从机器翻译设备获得与目标语言的句子对应的参考语言的句子,词对齐关系获取单元34被进一步配置为从机器翻译设备获得目标语言的句子和参考语言的句子之间的词对齐关系。机器翻译设备可以是基于统计的机器翻译设备,可以设置于语义单元抽取设备30之内或之外。
在一个示例中,词对齐关系获取单元34包括:空节点创建单元,被配置为对于目标语言的句子中的、参考语言句子中没有与之对齐的词的、且不属于停词表的词,在参考语言句子中与这样的词的左邻词对齐的词的右侧,创建名词词性的空节点与这样的词对齐。
图4示出了根据本发明的语义单元抽取设备的抽取单元的示例结构图。
在一个示例中,抽取单元35包括:一对多抽取单元351,被配置为对于词对齐关系表明一个参考语言词对应于连续的多个目标语言词、所述多个目标语言词仅对应于该参考语言词,且该参考语言词的词性是名词、形容词或副词的情况,将所述连续的多个目标语言词确定为一个语义单元,并将该语义单元的词性确定为该参考语言词的词性。
在一个示例中,抽取单元35还包括:多对多抽取单元352,被配置为对于词对齐关系表明连续的多个参考语言词对应于连续的多个目标语言词、且所述多个参考语言词符合预定义模板的情况,将所述连续的多个目标语言词确定为一个语义单元,并根据所述多个参考语言词的词性确定该语义单元的词性。
在一个示例中,抽取单元35还包括:一对一抽取单元353,被配置为对于词对齐关系表明一个参考语言词对应于一个目标语言词、且该参考语言词的词性是名词、形容词或副词的情况,将该目标语言词确定为一个语义单元,并将该语义单元的词性确定为该参考语言词的词性。
在一个示例中,抽取单元35还包括:调整单元354,被配置为按照目标语言的语法,对抽取出的语义单元进行调整。
另外,还应该指出的是,上述系统中各个组成模块、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图5所示的通用个人计算机500安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图5中,中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中,也根据需要存储当CPU 501执行各种处理等等时所需的数据。
CPU 501、ROM 502和RAM 503经由总线504彼此连接。输入/输出接口505也连接到总线504。
下述部件连接到输入/输出接口505:输入部分506,包括键盘、鼠标等等;输出部分507,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等等,和扬声器等等;存储部分508,包括硬盘等等;和通信部分509,包括网络接口卡比如LAN卡、调制解调器等等。通信部分509经由网络比如因特网执行通信处理。
根据需要,驱动器510也连接到输入/输出接口505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器510上,使得从中读出的计算机程序根据需要被安装到存储部分508中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 502、存储部分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或多个其它特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
虽然已经详细说明了本发明及其优点,但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本申请的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
附记
1.一种语义单元抽取方法,包括:
输入经过分词的目标语言的句子;
获得与目标语言的句子对应的参考语言的句子;
对参考语言的句子进行词性标注;
获得目标语言的句子和参考语言的句子之间的词对齐关系;以及
根据参考语言的句子的词性标注结果,借助于词对齐关系,抽取目标语言的句子的语义单元。
2.如附记1所述的语义单元抽取方法,其中,通过对目标语言的句子进行机器翻译,获得与目标语言的句子对应的参考语言的句子以及它们之间的词对齐关系。
3.如附记1所述的语义单元抽取方法,还包括:在对参考语言的句子进行词性标注之前,对参考语言的句子进行分词。
4.如附记1所述的语义单元抽取方法,其中,所述获得词对齐关系包括:
对目标语言的句子和参考语言的句子进行词级对齐,以获得词对齐关系。
5.如附记1所述的语义单元抽取方法,其中,所述获得词对齐关系包括:
对于目标语言的句子中的、参考语言句子中没有与之对齐的词的、且不属于停词表的词,在参考语言句子中与这样的词的左邻词对齐的词的右侧,创建名词词性的空节点与这样的词对齐。
6.如附记1所述的语义单元抽取方法,其中,所述抽取步骤包括:
对于词对齐关系表明一个参考语言词对应于连续的多个目标语言词、所述多个目标语言词仅对应于该参考语言词,且该参考语言词的词性是名词、形容词或副词的情况,将所述连续的多个目标语言词确定为一个语义单元,将该语义单元的词性确定为该参考语言词的词性,并将该语义单元视为目标语言的句子中的一个词。
7.如附记1或6所述的语义单元抽取方法,其中,所述抽取步骤还包括:
对于词对齐关系表明连续的多个参考语言词对应于连续的多个目标语言词、且所述多个参考语言词符合预定义模板的情况,将所述连续的多个目标语言词确定为一个语义单元,根据所述多个参考语言词的词性确定该语义单元的词性,并将该语义单元视为目标语言的句子中的一个词。
8.如附记7所述的语义单元抽取方法,其中,所述预定义模板基于参考语言的语法,符合预定义模板的多个词构成符合参考语言语法的名词词组、形容词词组、副词词组或专有名词。
9.如附记6-8之一所述的语义单元抽取方法,其中,所述抽取步骤还包括:
在上述语义单元确定步骤之后,
对于词对齐关系表明一个参考语言词对应于一个目标语言词、且该参考语言词的词性是名词、形容词或副词的情况,将该目标语言词确定为一个语义单元,将该语义单元的词性确定为该参考语言词的词性。
10.如附记6-9之一所述的语义单元抽取方法,其中,所述抽取步骤还包括:
按照目标语言的语法,对抽取出的语义单元进行调整。
11.一种语义单元抽取设备,包括:
目标语言输入单元,被配置为输入经过分词和词性标注的目标语言的句子;
参考语言获取单元,被配置为获得与目标语言的句子对应的参考语言的句子;
词性标注单元,被配置为对参考语言的句子进行词性标注;
词对齐关系获取单元,被配置为获得目标语言的句子和参考语言的句子之间的词对齐关系;以及
抽取单元,被配置为根据参考语言的句子的词性标注结果,借助于词对齐关系,抽取目标语言的句子的语义单元。
12.如附记11所述的语义单元抽取设备,其中,所述词对齐关系获取单元包括:
空节点创建单元,被配置为对于目标语言的句子中的、参考语言句子中没有与之对齐的词的、且不属于停词表的词,在参考语言句子中与这样的词的左邻词对齐的词的右侧,创建名词词性的空节点与这样的词对齐。
13.如附记11所述的语义单元抽取设备,其中,所述抽取单元包括:
一对多抽取单元,被配置为对于词对齐关系表明一个参考语言词对应于连续的多个目标语言词、所述多个目标语言词仅对应于该参考语言词,且该参考语言词的词性是名词、形容词或副词的情况,将所述连续的多个目标语言词确定为一个语义单元,并将该语义单元的词性确定为该参考语言词的词性。
14.如附记11-13之一所述的语义单元抽取设备,其中,所述抽取单元还包括:
多对多抽取单元,被配置为对于词对齐关系表明连续的多个参考语言词对应于连续的多个目标语言词、且所述多个参考语言词符合预定义模板的情况,将所述连续的多个目标语言词确定为一个语义单元,并根据所述多个参考语言词的词性确定该语义单元的词性。
15.如附记13或14所述的语义单元抽取设备,其中,所述抽取单元还包括:
调整单元,被配置为按照目标语言的语法,对抽取出的语义单元进行调整。
16.一种主题词获取方法,包括:
利用如附记1-10之一所述的语义单元抽取方法对待处理的文献抽取语义单元,以及
基于所抽取的语义单元,获取文献的主题词。
17.一种搜索方法,包括:
利用如附记1-10之一所述的语义单元抽取方法对可被搜索的文献抽取语义单元,以及
基于所抽取的语义单元,对文献进行搜索。
18.一种句法分析方法,包括:
利用如附记1-10之一所述的语义单元抽取方法对待处理的文献抽取语义单元,以及
基于所抽取的语义单元,进行句法分析。
19.一种机器翻译方法,包括:
利用如附记1-10之一所述的语义单元抽取方法对训练语料抽取语义单元,以及
基于所抽取的语义单元,训练机器翻译设备。
20.一种数据挖掘方法,包括:
利用如附记1-10之一所述的语义单元抽取方法对待处理的文献抽取语义单元,以及
基于所抽取的语义单元,进行数据挖掘。

Claims (10)

1.一种语义单元抽取方法,包括:
输入经过分词的目标语言的句子;
获得与目标语言的句子对应的参考语言的句子;
对参考语言的句子进行词性标注;
获得目标语言的句子和参考语言的句子之间的词对齐关系;以及
根据参考语言的句子的词性标注结果,借助于词对齐关系,抽取目标语言的句子的语义单元。
2.如权利要求1所述的语义单元抽取方法,其中,通过对目标语言的句子进行机器翻译,获得与目标语言的句子对应的参考语言的句子以及它们之间的词对齐关系。
3.如权利要求1所述的语义单元抽取方法,其中,所述获得词对齐关系包括:
对于目标语言的句子中的、参考语言句子中没有与之对齐的词的、且不属于停词表的词,在参考语言句子中与这样的词的左邻词对齐的词的右侧,创建名词词性的空节点与这样的词对齐。
4.如权利要求1所述的语义单元抽取方法,其中,所述抽取步骤包括:
对于词对齐关系表明一个参考语言词对应于连续的多个目标语言词、所述多个目标语言词仅对应于该参考语言词,且该参考语言词的词性是名词、形容词或副词的情况,将所述连续的多个目标语言词确定为一个语义单元,将该语义单元的词性确定为该参考语言词的词性,并将该语义单元视为目标语言的句子中的一个词。
5.如权利要求1或4所述的语义单元抽取方法,其中,所述抽取步骤包括:
对于词对齐关系表明连续的多个参考语言词对应于连续的多个目标语言词、且所述多个参考语言词符合预定义模板的情况,将所述连续的多个目标语言词确定为一个语义单元,根据所述多个参考语言词的词性确定该语义单元的词性,并将该语义单元视为目标语言的句子中的一个词。
6.如权利要求5所述的语义单元抽取方法,其中,所述预定义模板基于参考语言的语法,符合预定义模板的多个词构成符合参考语言语法的名词词组、形容词词组、副词词组或专有名词。
7.如权利要求5所述的语义单元抽取方法,其中,所述抽取步骤还包括:
在上述语义单元确定步骤之后,
对于词对齐关系表明一个参考语言词对应于一个目标语言词、且该参考语言词的词性是名词、形容词或副词的情况,将该目标语言词确定为一个语义单元,并将该语义单元的词性确定为该参考语言词的词性。
8.一种主题词获取方法,包括:
利用如权利要求1-7之一所述的语义单元抽取方法对待处理的文献抽取语义单元,以及
基于所抽取的语义单元,获取文献的主题词。
9.一种机器翻译方法,包括:
利用如权利要求1-7之一所述的语义单元抽取方法对训练语料抽取语义单元,以及
基于所抽取的语义单元,训练机器翻译设备。
10.一种语义单元抽取设备,包括:
目标语言输入单元,被配置为输入经过分词的目标语言的句子;
参考语言获取单元,被配置为获得与目标语言的句子对应的参考语言的句子;
词性标注单元,被配置为对参考语言的句子进行词性标注;
词对齐关系获取单元,被配置为获得目标语言的句子和参考语言的句子之间的词对齐关系;以及
抽取单元,被配置为根据参考语言的句子的词性标注结果,借助于词对齐关系,抽取目标语言的句子的语义单元。
CN201210320606.4A 2012-08-31 2012-08-31 语义单元抽取方法和语义单元抽取设备 Expired - Fee Related CN103678270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210320606.4A CN103678270B (zh) 2012-08-31 2012-08-31 语义单元抽取方法和语义单元抽取设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210320606.4A CN103678270B (zh) 2012-08-31 2012-08-31 语义单元抽取方法和语义单元抽取设备

Publications (2)

Publication Number Publication Date
CN103678270A true CN103678270A (zh) 2014-03-26
CN103678270B CN103678270B (zh) 2016-08-24

Family

ID=50315881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210320606.4A Expired - Fee Related CN103678270B (zh) 2012-08-31 2012-08-31 语义单元抽取方法和语义单元抽取设备

Country Status (1)

Country Link
CN (1) CN103678270B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391969A (zh) * 2014-12-04 2015-03-04 百度在线网络技术(北京)有限公司 确定用户查询语句句法结构的方法及装置
CN108121697A (zh) * 2017-11-16 2018-06-05 北京百度网讯科技有限公司 一种文本改写的方法、装置、设备和计算机存储介质
CN108205757A (zh) * 2016-12-19 2018-06-26 阿里巴巴集团控股有限公司 电子支付业务合法性的校验方法和装置
CN108984666A (zh) * 2018-06-29 2018-12-11 阿里巴巴集团控股有限公司 数据处理方法、数据处理装置和服务器
CN110750989A (zh) * 2019-10-28 2020-02-04 北京金山数字娱乐科技有限公司 一种语句分析的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573740A (zh) * 2003-05-27 2005-02-02 微软公司 单语翻译机
US20070094006A1 (en) * 2005-10-24 2007-04-26 James Todhunter System and method for cross-language knowledge searching
CN101908042A (zh) * 2010-08-09 2010-12-08 中国科学院自动化研究所 一种双语联合语义角色的标注方法
CN101930430A (zh) * 2009-06-19 2010-12-29 株式会社日立制作所 一种语言文本的处理装置及语言学习装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573740A (zh) * 2003-05-27 2005-02-02 微软公司 单语翻译机
US20070094006A1 (en) * 2005-10-24 2007-04-26 James Todhunter System and method for cross-language knowledge searching
CN101930430A (zh) * 2009-06-19 2010-12-29 株式会社日立制作所 一种语言文本的处理装置及语言学习装置
CN101908042A (zh) * 2010-08-09 2010-12-08 中国科学院自动化研究所 一种双语联合语义角色的标注方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FANG M, ZHAO Q.: "Automatic Acquisition of Semantic Elements Based on Statistical Decomposition", 《IEEE INTERNATIONAL WORKSHOP ON SEMANTIC COMPUTING AND SYSTEMS》 *
方淼: "语义单元自动获取研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391969A (zh) * 2014-12-04 2015-03-04 百度在线网络技术(北京)有限公司 确定用户查询语句句法结构的方法及装置
CN104391969B (zh) * 2014-12-04 2018-01-30 百度在线网络技术(北京)有限公司 确定用户查询语句句法结构的方法及装置
CN108205757A (zh) * 2016-12-19 2018-06-26 阿里巴巴集团控股有限公司 电子支付业务合法性的校验方法和装置
CN108205757B (zh) * 2016-12-19 2022-05-27 创新先进技术有限公司 电子支付业务合法性的校验方法和装置
CN108121697A (zh) * 2017-11-16 2018-06-05 北京百度网讯科技有限公司 一种文本改写的方法、装置、设备和计算机存储介质
CN108121697B (zh) * 2017-11-16 2022-02-25 北京百度网讯科技有限公司 一种文本改写的方法、装置、设备和计算机存储介质
CN108984666A (zh) * 2018-06-29 2018-12-11 阿里巴巴集团控股有限公司 数据处理方法、数据处理装置和服务器
CN110750989A (zh) * 2019-10-28 2020-02-04 北京金山数字娱乐科技有限公司 一种语句分析的方法及装置
CN110750989B (zh) * 2019-10-28 2023-09-19 北京金山数字娱乐科技有限公司 一种语句分析的方法及装置

Also Published As

Publication number Publication date
CN103678270B (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
CN109213995B (zh) 一种基于双语词嵌入的跨语言文本相似度评估技术
KR101031970B1 (ko) 구문들 사이의 번역 관계를 학습하기 위한 통계적 방법
CN107818085B (zh) 阅读机器人进行阅读理解的答案选择方法及系统
CN106777275A (zh) 基于多粒度语义块的实体属性和属性值提取方法
EP1889180A2 (en) Collocation translation from monolingual and available bilingual corpora
CN103678285A (zh) 机器翻译方法和机器翻译系统
Costa-Jussá et al. Statistical machine translation enhancements through linguistic levels: A survey
CN103678270A (zh) 语义单元抽取方法和语义单元抽取设备
CN111597807B (zh) 分词数据集生成方法、装置、设备及其存储介质
CN111950301A (zh) 一种中译英的英语译文质量分析方法及系统
Bar-Haim et al. Choosing an optimal architecture for segmentation and POS-tagging of Modern Hebrew
CN102135957A (zh) 一种翻译短句的方法及装置
Amri et al. Amazigh POS tagging using TreeTagger: a language independant model
Mir et al. Building Kashmiri Sense Annotated Corpus and its Usage in Supervised Word Sense Disambiguation
Lei et al. Design and Analysis of English Intelligent Translation System Based on Internet of Things and Big Data Model
CN110457436B (zh) 信息标注方法、装置、计算机可读存储介质及电子设备
Gatiatullin et al. “Turkic Morpheme”: From the Portal to the Linguistic Platform
Luekhong et al. A study of a Thai-English translation comparing on applying phrase-based and hierarchical phrase-based translation
Amrani et al. A chain of text-mining to extract information in archaeology
Lei Intelligent Recognition English Translation Model Based on Embedded Machine Learning and Improved GLR Algorithm
CN115358186B (zh) 一种槽位标签的生成方法、装置及存储介质
CN115376153B (zh) 一种合同比对方法、装置及存储介质
Samir et al. Training and evaluation of TreeTagger on Amazigh corpus
Boroş et al. Romanian-English speech translation
Kai et al. Disambiguation of Biomedical Acronyms Based on a Bidirectional Recurrent Neural Network of Character-level Features.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160824

Termination date: 20180831

CF01 Termination of patent right due to non-payment of annual fee