CN112825111A - 自然语言处理方法与其计算装置 - Google Patents
自然语言处理方法与其计算装置 Download PDFInfo
- Publication number
- CN112825111A CN112825111A CN202011282856.4A CN202011282856A CN112825111A CN 112825111 A CN112825111 A CN 112825111A CN 202011282856 A CN202011282856 A CN 202011282856A CN 112825111 A CN112825111 A CN 112825111A
- Authority
- CN
- China
- Prior art keywords
- word
- input
- input word
- words
- collocation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种自然语言处理方法,其特征在于,包含:接收多个输入字;以及根据一数据库内的多个集合,简化该多个输入字,以形成一或多个主体词数据结构,其中该一或多个主体词数据结构之一包含该多个输入字之中的一第一输入词与一第二输入词,其中该多个集合之一包含该第一输入词与该第二输入词的搭配关系,其中该第一输入词与该第二输入词的该搭配关系包含一搭配属性,用于记载在训练语料中该第一输入词与该第二输入词出现的强度。
Description
技术领域
本申请系关于自然语言处理,特别系关于利用计算器以简化方式来处理自然语言。
背景技术
传统的自然语言分析工具(如剖析器,中文断词等)比较偏重语法,然而有些语言(譬如:中文)文法相当松散,网络上的口语夹杂着大量的省略,次序调换和不合文法的语句,学术界正规训练的剖析系统很难处理,必需考虑大量的语意讯息才能进行正确的剖析,了解句意。即便是最基本的中文的断词系统,没有适度考虑语意,也可能犯下许多莫名的错误。譬如:一台大冰箱;还要几张才够?(错误的断词由“台大”和“张才”这两个专名造成)。
在现代人经常使用的电子产品当中,自然语言的语音输入以及语音输出已经成为重要的输入及输出方法,也是控制电子计算器的人机接口之一。因此,需要一种能够较为正确地判断句子语意的方法,以便能够正确地从输入的音节当中选字、剖析不合乎文法的口语化语言,进一步能够进行较正确的机器翻译,或者将结果以自然语言输出。
发明内容
本发明是为了更正确的自然语言的语意分析,以便能够在多个可能的文意当中较为准确地找出正确的文意,本申请提供一种自然语言处理方法与用于自然语言处理的计算装置,透过数据库内的搭配关系和标签序列,利用递归的方式将输入的语句简化成依存剖析树所构成的语意结构。当可以形成上述的语意结构时,表示语意分析出的文意无误。
为了实现上述目的,本发明采用了如下技术方案:
由于词与词之间的多个搭配关系是否存在于数据库内可以是事先已知的,因此当计算器实行该自然语言处理方法,其结果是确定性的(deterministic)。此外,由于是利用递归(recursive)的方式来进行简化,不是利用穷举的方式来考虑所有可能性,所以可以减少该自然语言处理方法的计算复杂度。再者,该自然语言处理方法的简化不是单纯地利用词性的组合进行简化,也不局限于相邻的N个字组成的N-gram次数或频率进行简化,而是可以根据语境所指涉的语意的搭配关系来进行简化,使得语意结构可以是有意义的。
根据本申请的一面向,提供一种自然语言处理方法,包含:接收多个输入字;以及根据一数据库内的多个集合,简化该多个输入字,以形成一或多个主体词数据结构,其中该一或多个主体词数据结构之一包含该多个输入字之中的一第一输入词与一第二输入词,其中该多个集合之一包含该第一输入词与该第二输入词的搭配关系,其中该第一输入词与该第二输入词的该搭配关系包含一搭配属性,用于记载在训练语料中该第一输入词与该第二输入词出现的频率、次数或强度。
更进一步的,为了简化具有多个搭配词的主体词,其中该主体词数据结构之一包含该多个输入字之中的一第三输入词,其中该多个集合之另一集合包含该第二输入词与该第三输入词的搭配关系,其中该主体词数据结构包含一树状结构,该第一输入词为该树状结构的根节点,该第二输入词为该第一输入词的子节点,该第三输入词为该第二输入词的子节点。
更进一步的,为了简化具有词组或子句的主体词,其中该主体词数据结构之一包含该多个输入字之中的一第三输入词,其中该多个集合之另一集合包含该第一输入词与该第三输入词的搭配关系,其中该主体词数据结构包含一树状结构,该第一输入词为该树状结构的根节点,该第二输入词为该第一输入词的子节点,该第三输入词为该第一输入词的子节点。
更进一步的,为了弥补数据库内所含的搭配关系不足,可以利用主体论来形成搭配关系,其中该多个主体词数据结构之另一包含该多个输入字之中的一第三输入词与一第四输入词,该第三输入词与该第四输入词分别对应到主体论的同一阶层或上下阶层,该多个集合当中并不包含该第三输入词与第四输入词的搭配关系。
更进一步的,为了辨识与简化专有名词、时间词组、空间词组或固定格式的文意,其中该多个主体词数据结构之另一包含一专有名词,该专有名词依序包含该多个输入字之中的一第三输入词与一第四输入词,该多个集合之一第三集合包含该第三输入词与一第三标签的搭配关系,该多个集合之一第四集合包含该第四输入词与一第四标签的搭配关系,该数据库更包含一标签序列,该标签序列包含依序排列的该第三标签与该第四标签。
更进一步的,为了辨识与简化递归形式组成的专有名词、时间词组、空间词组或固定格式的文意,其中该多个主体词数据结构之另一包含一专有名词,该专有名词依序包含该多个输入字之中的一第三输入词、一第四输入词与一第五输入词,该多个集合之一第三集合包含该第三输入词与一第三标签的搭配关系,该多个集合之一第四集合包含该第四输入词与一第四标签的搭配关系,该多个集合之一第五集合包含该第五输入词与一第五标签的搭配关系,该数据库更包含一第一标签序列与一第二标签序列,该第一标签序列包含依序排列的该第三标签与该第二标签序列,该第二标签序列包含依序排列的该第四标签与该第五标签。
更进一步的,为了简化具有未知词的专有名词,其中该多个主体词数据结构之另一包含一专有名词,该专有名词依序包含该多个输入字之中的一第三输入词、一第四输入词与一第五输入词,该多个集合之一第三集合包含该第三输入词与一第三标签的搭配关系,该多个集合之一第五集合包含该第五输入词与一第五标签的搭配关系,该数据库更包含一第一标签序列,该第一标签序列包含依序排列的该第三标签、一第四标签与该第五标签,其中该第四输入词不在该多个集合当中的任何一个搭配关系中。
更进一步的,为了更精确地进行语意分析、机器翻译与弥补数据库内所含的搭配关系不足,其中该多个集合之一更包含一词、与该词搭配的一或多个搭配词、以及下列集合属性的其中之一或其任意组合:记载该词之词性的集合属性;记载该词表示语言的集合属性;以及记载该词属于主体论之阶层的集合属性。
更进一步的,为了更精确地进行语意分析、机器翻译与弥补数据库内所含的搭配关系不足,其中该多个集合之一的搭配关系更包含下列搭配属性的其中之一或其任意组合:记载该搭配关系中的一词与该搭配词的先后次序的搭配属性;记载该词与该搭配词是否必须紧邻的搭配属性;记载该词与该搭配词的词界的搭配属性;记载该搭配词表示语言的搭配属性;记载该搭配词是否为标签的搭配属性;记载该搭配词属于主体论之阶层的搭配属性;以及记载该搭配词之词性的搭配属性。
更进一步的,为了更精确地利用语意结构来进行语意分析,该自然语言处理方法更包含:寻找该一或多个主体词数据结构当中的一主体动词数据结构;当找到该主体动词数据结构时,根据该主体动词数据结构的动词框架,形成树状结构的一语意结构;以及当找不到该主体动词数据结构时,根据该一或多个主体数据结构形成森林型态的该语意结构,其中该语意结构包含所有的该一或多个主体词数据结构。
更进一步的,本申请可以适用于以两种语言表示的复数个字,其中该多个输入字当中的至少一个输入词以第一语言来表示,该多个输入字当中的另一个输入词以第二语言来表示。
更进一步的,为了进行机器翻译,该自然语言处理方法更包含:将该语意结构内的每一个以第一语言表示的该输入词,翻译成以第二语言表示的该输入词;以及根据具有以第二语言表示的该多个输入字的该多个集合中的多个搭配关系,将该语意结构内的所有的该多个输入字排列组成以第二语言表示的一序列。
更进一步的,为了利用数据库中的搭配关系进行更准确的翻译,其中该多个集合之一包含该第一语言表示的该输入词与该第二语言表示的该输入词的搭配关系,该翻译步骤系根据该第一语言表示的该输入词与该第二语言表示的该输入词的搭配关系来进行。
更进一步的,为了利用搭配关系的强度来解决具有歧异的相依剖析树的情况,其中该多个集合之另一包含该多个输入字之中的该第一输入词与一第三输入词的搭配关系,该第一输入词与该第三输入词的该搭配关系包含令一搭配属性,用于记载在训练语料中该第一输入词与该第三输入词出现的第二强度,该自然语言处理方法更包含:判断该强度与该第二强度的何者较大;当该强度较大时,将该第一输入词与该第二输入词形成该一或多个主体词数据结构之一;以及当该第二强度较大时,将该第一输入词与该第三输入词形成该一或多个主体词数据结构之一。
更进一步的,为了满足语意结构必须包含所有的输入词,该自然语言处理方法更包含:当该强度较大时,形成另一个该主体词数据结构,上述的另一个该主体词数据结构包含该第三输入词。
更进一步的,为了解决语音输入或音节输入的情况,该多个输入字包含多个音节,该第一输入词包含该多个音节所组成的一或多个字。
更进一步的,为了能接受语音输入指令,该自然语言处理方法更包含:判断该语意结构是否包含动词框架;当该语意结构包含动词框架时,根据该动词框架所对应的动词,找出对应的一指令;以及执行该指令。
更进一步的,为了能接受较为复杂的语音输入指令,该自然语言处理方法更包含:在执行该指令之前,根据该动词框架,在该语意结构中找出该指令的一或多个参数。
更进一步的,为了能利用自然语言响应用户,该自然语言处理方法更包含:接收该指令执行之后的响应消息;将该响应消息组成一响应消息的语意结构;以及将该响应消息的语意结构内的所有的输入词排列组成一序列。
根据本申请的一面向,提供一种用于自然语言处理的计算装置,用于执行多个指令,以实现前述的该自然语言处理方法。
总上所述,本发明的有益效果为:本申请所提供的自然语言处理方法与用于自然语言处理的计算装置可以透过搭配关系、标签序列和本体论进行简化来进行语意分析。透过语意分析结果,可以得知分析是否正确。分析出的语意结构也可以适用于机器翻译和指令输入和响应输出。
附图说明
图1为根据本申请一实施例的主体词数据结构的一示意图。
图2为根据图1实施例的语意结构的一示意图。
图3至图14F为根据本申请实施例的人类基因名称的标签序列的示意图。
图15为根据本申请一实施例的一句子的一标签序列的示意图。
图16为根据本发明一实施例的一电子系统1400的一方块示意图。
图17为根据本发明一实施例的自然语言的生成方法的一流程示意图。
图18为根据本发明一实施例的主体词的简化方法的一流程示意图。
图19为根据本发明一实施例的一种句子的语意分析方法的一流程示意图。
图20为根据本申请一实施例的一自然语言处理方法的一流程示意图。
图21为根据本申请一实施例的机器翻译方法的一流程示意图。
图22为根据本申请一实施例的机器控制方法的一流程示意图。
具体实施方式
本发明将详细描述一些实施例如下。然而,除了所揭露的实施例外,本发明亦可以广泛地运用在其他的实施例施行。本发明的范围并不受该些实施例的限定,乃以其后的申请专利范围为准。而为提供更清楚的描述及使熟悉该项技艺者能理解本发明的发明内容,图示内各部分并没有依照其相对的尺寸而绘图,某些尺寸与其他相关尺度的比例会被突显而显得夸张,且不相关的细节部分亦未完全绘出,以求图示的简洁。此外,本发明的各流程图所示的各个步骤当中,可以插入其他与本发明无关的其他步骤。除非有因果依存关系,本发明也不限定各个步骤的执行顺序。
一个词X的修饰语,通常是语意上能够和X搭配的词。一个复杂的句子通常是由简单句逐步地加上许多语意上适合搭配的修饰语,修饰子句,或者修饰语的修饰语,补语等等。如果我们对每个词X搜集其修饰语集合FB(X)。就可以利用词与词之间的修饰关系,将一个复杂句反推回原来的简单句。要进行这个计算,我们需要将句子中所有合理的修饰关系利用FB和句子结构推导出来。如此,就会得到这个句子的依存剖析树。将一个词X的修饰语“并入”X的动作,我们称之为“简化”(reduction)。对一个句子进行简化,我们要从依存剖析树的端点(leaf node)的词递归地与上面的搭配词合并,回推至其原来的简单句。本发明描述一个利用FB产生依存剖析树的方法,并可同时可进行断词以及语言生成。
简化法之简介
我们发现,人类对于“词”的认知相当多元。一个词就像脸书上一个人一样,有许多的朋友和许多的活动。一个词与“友词”在句子之中经常一起出现。这些词与词的交互作用,就像人类的社群网络。因此一个词代表一个概念,它的出现代表着某种意义,除了本身的意义之外,也影响了句子的意义。这也是本发明要探讨的课题。虽然目前引用的例子有许多是中文,但本发明可应用在任何语言。
·词与词在句子中的语意配搭
词与词之间语意搭配(或依存)的关系在句子中极为重要。我们可以说,没有一个词在句子中是独立存在的。也就是说,每一个词一定会与句子中另一个词有语意搭配关系。许多这类的搭配关系是约定俗成的。譬如,我们会说“打了一场漂亮的球赛”,而不会说“打了一场美丽的球赛”,即令“漂亮”与“美丽”意义相近。不了解这样的搭配关系,计算机经常会产生错误的剖析。譬如下面的例子:
1.完成清扫家里的工作(Finish the job of house cleaning)
完成{[清扫家里]的工作}---(完成,工作)
2.完成清扫家里的垃圾(Finish cleaning the household garbage)
完成{清扫[家里的垃圾]}---(完成,(清扫,垃圾)事件)
一般的剖析器很容易将第二句话剖析成和第一句类似,也就是主要事件是(完成,垃圾)。然而正确的方式却是:完成了“清扫垃圾”这个事件。也就是说,(完成,工作)是一个合适的语意搭配词组,但(完成,垃圾)不是。
这类有意义的搭配关系可能有几千万个配对,需要在非常大的资料中才能统计得到,在任何有限的机器学习训练语料中是无法看出的。这也说明了,为何一般机器学习的正确率在自然语言中有其瓶颈。
搭配词集合FB(X)
本发明假设这种有意义的配对已经从一个庞大的训练语料取得而且带有频率,后面探讨如何利用它们来进行更精准的自然语言理解。具体取得这类配对的方式在后面的分析中会约略提到。
我们对每一个词X,定义其搭配词的集合为FB(X)。FB(X)包含了X的ontology中的property,event等等以及许多其他的重要信息。一个词X的FB(X)通常会包含X的ontology(如E-HowNet[1])里面的词,或者更多(经由继承)。
词与词有许多种搭配关系:比较常见的是修饰关系:譬如名词与名词,形容词与名词,副词与形容词等等。另外,就是一个词如“餐厅”这个概念场景内,会发生的活动,如聊天,跳舞等等相关的概念词。另外,对动词而言,与其有搭配关系的名词就是经常和其搭配出现的主词或受词;其他就是时间(或地点)副词与词组。
通常一个句子会有主词、动词及受词。最简单的句子里没有任何修饰语。要将简单句复杂化,可以逐步地加上许多搭配的修饰语及子句,补语,或者修饰语的修饰语等等。
在许多情况,中文会省略一些搭配词,譬如:“地雷范围”,正确地说,应该是“地雷爆炸范围”,其中“爆炸”是“地雷”的event,而“范围”是“爆炸”的property。然而,以搭配词组而言,如果“地雷范围”经常出现,我们就会将“范围”视为“地雷”的一个搭配词。
利用FB计算句子的依存剖析树
本发明主要是藉由事先搜集的FB(X)知识库,将一个复杂句逐步简化(reduce),还原成简单句。在此过程中,我们会得到这个句子的依存剖析树。
当一个修饰语A被简化到其相邻搭配词X之下时,我们就会将AX这个字符串变成X的概念<X>,同时产生一个实例图(instance map)来记录这个关系。如果,接着有另一个修饰语A的相邻词B可以作为修饰语A(或搭配词X)的搭配词时,我们会扩大<X>的概念。此时,<X>就代表BAX这个字符串,同时相对应的实例图(instance map)会将词B放在修饰语A(或搭配词X)之下。
从名词词组NP的结构我们可以看到,<X>的概念可以扩大到有子句的modifier,其后加上“的”。这可以利用许多类似生物专有名词辨识(NER,Named Entity Recognition)的概念序列(concept sequence)。在确认一个名词词组NP的组成是正确时,往往需要利用远距的“名量词”或者外部的动词搭配词。譬如前述的,(完成,工作)和(完成,event)。
在概念组合的过程中,会遇到两个可能的概念重迭的情况。此时,就需要借重当初修饰语与其搭配词之间共现的频率(可转换成某种权重weight或强度intensity)来计算哪个概念的总权重(total weight)较高,来决定取舍。
当邻近的FB无法有效地解岐时,我们需要许多更长的概念序列(conceptsequence)。就像我们在进行生物医学名词辨识(NER,Named Entity Recognition)时的情况。这种情况在后面语音输入时,更形重要。
·名词词组的结构分析
下面我们讨论如何将一个名词词组NP(head N)简化成其head noun N。我们以中文为例。首先,NP(head N)有相当多种可能的结构,有些修饰语后面需要加“的”,有些则不需要。譬如:谈到餐厅的设备,我们会说“有停车场的餐厅”,谈到餐厅内的可能发生的event,我们会说“可以聊天”的餐厅。其中“停车场”和“聊天”都是餐厅的搭配词。又如:“黄色的小猫”和“小黄猫”。后者就不需要加“的”。在处理句字中的词时,有些词不可能在辞典内穷举,需要在句子中临时组合起来,譬如:数词(九十八,123),时间词(年月日,时分秒),还有DM(determiner-measure),也就是中文的定量结构,譬如:一个,这个等等。以下我们列举一些常见的结构:
1.修饰语+N(一般修饰语中间没有“的”)
2.修饰语+N(有底线的修饰语中间有“的”),这又可细分为下面的cases:
2.1 A+的+修饰语+N
2.2 N+的+修饰语+N
2.3 V+的+修饰语+N
2.4 VP+的+修饰语+N
2.5 S+的+修饰语+N
2.6 时间词组+的+修饰语+N(圣诞节前的考试)
2.7 空间词组+的+修饰语+N(在山上的房子)
3.前两种结构,最前面(或后面)再加上DM,也就是
3.1 DM+修饰语+N(名量词搭配)或修饰语+N+DM
3.2 DM+修饰语+N(名量词搭配)或修饰语+N+DM
修饰语中有直接(紧邻)搭配词,间接搭配词。通常最多有一个间接搭配词(其他的就会放在“的”的前面)。其余的搭配词则为修饰搭配词的。利用FB中搭配词的频率,我们可以决定在连续三个词ABC中,三个可能的搭配词组(A,B),(B,C),(A,C)中哪些是最可能的,并将修饰语简化到N之内。这时,相邻的DM也可简化到N以内。之后,NP不是简化成N,就是N前面有“的”的修饰语。其结果如图一所示。这里要注意的是,时间词组和空间词组通常都有方位词引导,可以独立处理。此外,前述的ABC三个词构成一个trigram,是由我们FB的bigram自动产生的。如果再推演下去,修饰语的搭配词继续延伸,可以产生语言内N-gram的果效。
再者,我们同时可以简化动词V的修饰语。这通常包括了副词,时间词组及空间词组。有了简化的N和V,子句内通常只剩下动词及其相关的论元(argument)(附注:由于语言表达复杂度的自然限制,子句内通常不会再有子句修饰语。因此,我们可不必考虑递归式的结构,譬如:子句内修饰动词的时间词组内就不会再含有子句,类似于“That that youareright is wrong is right”。这种句子通常很难理解,也很少有人会写。这样可以大量减低分析的复杂度。和一般程序语言相较,自然语言的循环数量最多为2)。利用该动词的框架就可将子句的语意段落(chunk)筛选出来。时间词组和空间词组中如果有子句,也可同样处理。当子句处理好之后,我们就可根据上述结构进一步将复杂的NP简化成N,并将V的修饰语简化到V内。
此时,针对一些重复或列举式的“平行结构”,我们先进行合并,譬如:“橘子,梨子和苹果”,可以简化成“橘子”。在其下我们会记录一个list,其中有梨子,苹果。“淘气又可爱的”可以简化成“可爱的”。
·代表一个句子语意角色的实例图instance map
当NP,V都简化成head words之后,就剩下动词及其论元的框架结构。我们可检查FB来确认这些论元及其动词都是合理的搭配词组。然后,根据动词框架的角色名称将NP,V的headwords放在适当位置。再将其修饰语按照语意讯息放在head之下,这样就形成了这个句子的实例图instance map(注:子句可以递归产生其实例图instance map)。以下面的句子为例:“小明打算明天给小华每公斤100元的富士苹果两个”,其结果如图2所示。
此外,一个句子可能还有“补语”。“补语”本身可能是一个句子或形容词词组。我们可以用同样的方法将其简化。
当一个词A简化到其依存词B后,我们可以适当地调整词B的label,以便更贴近两者合并之组合词的语意。
简化的方法可以类似地应用到其他语言上。接下来,我们将简化方法应用到英文。考虑以下的英文句子:
I saw a man swimming in the river on the bridge.
本句基本的主词、动词、受词的SVO结构为(I,saw,man)。Swimming用于修饰man;inthe river用于修饰swimming;以及on the bridge用于修饰saw。对于用作修饰语的介词词组,我们可以将其简化为(in,river)以及(on,bridge),并且将这些词认为是其修饰的词的FB。
在另一个范例当中,考虑以下的英文句子:
The archaeologist is in trouble.
该句具有这样的形式:<people>:<be>:<in a situation>。可以藉由一对一的方式加入修饰语,使上述的句子更加复杂。例如:
The old archaeologist named John is in a serious trouble.
The old archaeologist named John Doe is in a very serious troublewith his academia reputation.
反过来看,也可以根据其相对应的FB来简化这些句子的修饰语,使其回到最初的简单形式。
·FB的搜集方法大略说明
前面提到NP(head N)的结构。我们可以利用现有的中文剖析器将大量句子剖析出来,对其中NP进行分析,哪些可能是head N的搭配词,包括放在“的”之前的搭配词和之后的搭配词。虽然剖析器不见得准确,但如果训练的语句数量非常大,得到的pair(N,N’)的数量足够大,则(N,N’)是一个真正的搭配词组的机会也很大。连续的搭配词中有些可能是搭配词的搭配词,譬如:“桃园医院医师”中,“医院”是“医师”的搭配词,而“桃园”则是“医院”的搭配词(而不是“医师”的搭配词)。同样的,“桃园医院主治医师”中,前述的搭配关系不变,又增加了一个“主治”是“医师”的搭配词。其他如(V,N)及(N,V)的搭配词组的统计也可以利用剖析树,非常类似。
·FB(X)的语意抽象化
在自然语言中,有许多阶层式语意分类树(如E-HowNet[1]),将词依据语意相似度分配在不同的类别内。譬如,“苹果”可能在“水果”的类别内,“水果”又可能在“食物”的类别内。这些类别的名称,我们叫做语意label。我们在考虑FB(X)时,X本身也可能是语意label。同样的,FB(X)里面的搭配词也可能是语意label。在许多情况,由于训练资料的贫乏,某些词的FB可能不是搜集得很充分。这时,可以观察这个词X的上层的语意label里面是否有许多词已经和某个词Y成功搭配,此时可考虑将(X,Y)做为“弱搭配词组”。譬如,“吃苹果”,“吃香蕉”经常出现,也就是“吃”是“苹果”和“香蕉”的搭配词。如果“吃榴莲”出现的次数很低,系统也会考虑将“吃”视为“榴莲”的弱搭配词。
利用FB进行专有名词辨识named entity recognition(NER)
在前面一般句子的简化中,简化的最后结果是动词的论元框架。在专有名词辨识中,我们采取另一种方式。经过适当的标注,利用标注的FB进行简化,许多专有名词都可以归纳成辞典内的label sequence或者是前述的概念序列(concept sequence)。在本申请当中,当进行专有名词辨识时,通常将其称为是label sequence。但在其余部分,则可以称为是概念序列。其中的label类似于concept这里我们引用的例子为生物医学的基因命名。从reduction的角度进行人类基因命名规则统整。从语意的角度观察人类基因的命名方式,可以窥见基因的本体会以不同的角度进行描述,概略约可分成描述基因的外表/结构(Appearance)、基因具有之功能或关连功能推测(Functional related description)、基因的鉴定来源或同源出处(Origin/Source/Homolog)以及基因家族名称(Family term)这些分类方式是基于HUGO Gene Nomenclature Committee(HGNC)所制订之准则[2]所延伸,以下试以reduction的角度对人类基因命名进行归纳,并给予相应类别基因名范例。图三至图十四F为根据多个实施例所示的基因简化的label sequence。
1.基因的外表/结构–Appearance:
此类命名着重在基因结构上的描述,语意上会较常[Structure]、[Sequence]等类型,例如以下四个基因名,可以发现他们在命名上有雷同之处。
以上基因名标签的[Chemical]、[Organ_Tissue]以及[Sequence]可进一步简化并入[Structure]中。最后得到的基因概念的label sequence为:
[Structure][Head_Mol][Specifier]
2.基因具有之功能或关连功能推测–Functional related description:
此类命名相当多样化,涵盖范围广,基因名中会描述该分子所负责的功能、作用区域或者突变后造成的影响;若是未发现该基因具体功能,但是知道其会与特定基因进行作用或连结,则名字中会包含其他基因名。以下举例:
·Vascular epidermal growth factor A(VEGFA)为血管内皮生长激素A,功能即是促进血管新生,Concept tag可标成:
Vascular epidermal growth factor A
[Organ_Tissue][Organ_Tissue][Target_Function][Function_Mol][Specifier]
其中相邻[Organ_Tissue]可合并,最终可由三个Concept tag表示VEGFA,像是[Organ_Tissue][Function_Mol][Specifier]。其结果如图3所示。
·protein serine-threonine phosphatase 2A(PP2A)为一系列磷酸脢家族的一员,其主要功能为切除目标蛋白的serine或threonine上的磷酸根,藉此让目标蛋白失去活性,Concept tag可标成:
protein serine threonine phosphatase 2A
[Head_Mol][Chemical][Chemical][Function_Mol][Specifier]
标签中的[Head_Mol][Chemical][Chemical]即是基因的作用对象,语意上也可合并为[Chemical],而phosphatase则做为这个基因的[Function_Mol],最终PP2A整合后的语意概念将会如图4所示。
·lactate dehydrogenase A(LDHA)为乳酸脱氢脢中的一员,这个基因名简短,但是所代表的语意上层含意恰巧与PP2A接近,都是目标化合物搭配功能性分子的组合,结果如图5所示,可看出LDHA与图4表达之PP2A的雷同之处。
功能性基因除了平铺直述的语意概念外,亦存在巢状(recursive)语意结构,就如以下两个基因名称所描述之功能,作用于另一个完整定义的序列或是基因上,其角色类似于英文句子中的子句或是中文词组。
·cAMP responsive element binding protein 1(CREB1)拆解后可得知,有个特定的序列(responsive element)可对环腺苷酸(cAMP)浓度有所反应,而CREB1蛋白质的功能则为与该特定序列结合,基因名称的结构可拆解成如图六所示之概念,做为[Function_Mol]的binding protein所结合的对象为另一个完整概念架构的cAMP responsiveelement。
·fibroblast growth factor receptor 2(FGFR2)于命名的结构雷同CREB1,差别为所结合的对象,纤维母细胞生长激素(fibroblast growth factor)为一系列之功能性蛋白质,FGFR2做为受器(receptor)负责与之作用,基因概念的label sequence如图7所示。
有别于上面的基因名,另外有些基因未能清楚得知其切却作用对象,但经由观察或实验发现当这些基因失常(失去活性、突变)时,会诱发特定疾病的发生,由此做为命名缘由。
·insulin-dependent diabetes mellitus 6(IDDM6)为与胰岛素相关糖尿病之基因,且命名非以特定分子(如:protein、receptor)描述做为结尾,而透过序列号辨明此为完整基因,其中所蕴含的基因概念经生物语意的对应后将如图8F所示。
·acute myeloid leukemia 1protein(AML1)被发现为急性骨髓性白血病相关的致病基因,因而也直接以此命名,实际文献撰写时若文意表达不清易造成读者混淆,所描述的对象是指疾病本身或者其关连蛋白质,图9所示之语意概念可清楚说明AML1蛋白质的命名结构。
3.基因的鉴定来源或同源出处–Origin/Source/Homolog:
Origin/Source/Homolog of gene
此类人类基因由于是透过其他物种的基因发现而鉴定出,命名往往会带有其他基因的名称且会辅以同源(homolog)或相似(like)等描述,藉以表达该基因之缘由。
·Kruppel like factor 4(KLF4)中的”Kruppel”一开始为果蝇中所发现之基因,该基因的突变将会造成果蝇幼体的残缺,此基因带入命名,说明KLF4基因之功能性类似于”Kruppel”,而其基因概念亦是由”Kruppel”延伸,构成如图10所示之结构。
·v-jun avian sarcoma virus 17oncogene homolog(JUN)从命名方式来看可以发现,人类JUN与禽鸟肉瘤病毒中的v-jun为相近的同源基因,完整的基因语意结构如图11所示,可发现JUN基因所涵盖的语意在进行整合后可精简为两个上层Concept。
4.基因家族名称–Family term
这类基因有属于自己的家族(family/superfamily)谱系,往往每个家族都会有自己的命名逻辑,但由于发源可能根于某个复合物(complex)或是具有雷同的特性(都是小分子、细胞表面蛋白)等,因此同族基因会有相同的命名前缀,后缀之数字、英文序列可到数十甚至上百。
·S100 calcium binding protein A16(S100A16)为低分子量蛋白质S100家族中的一员,此系列蛋白质皆具有与钙离子结合之能力,全名的描述中再赋予不同的序号作以区别,如图12所示,label sequence的前端可看出该基因家族的特性,最后的[Specifier]再决定该基因具体序列。
·major histocompatibility complex,class II,DR beta 1(HLA-DRB1)做为细胞表面的抗原辨识蛋白质,MHC是一个庞大的基因家族,与免疫功能息息相关,人类的MHC基因又称为human leukocyte antigen(HLA),由于要辨识外界环境的各种物质,具有许多不同的基因型以及细类分支为这系列基因的特点,由图13所示,label sequence中频繁出现的[Specifier]亦可观察到此现象。
Note 1:基因名称如有多种功能/缘由进行描述,基因名会以and串接前后,而强调其特定作用媒介、位置、对象等,则介系词(of,for,on)较常加入基因名中。
Note 2:同一个基因会有不同的别名,而这些别名可能就是透过不同的描述角度阐述这个基因。
Note 3:此分类描述人类基因命名描述方式或有未竟之处,需持续整理补完。
当专有名词(NE,named entity)都是由已知词组成时,我们已经从生物的例子看到如何产生对应的概念序列(concept sequence)。然而,有两种例外情况需要考虑:
1.当专有名词NE内有未知词时,我们需要利用已知词的辅助来建立概念序列(concept sequence)。譬如一个包含两个字的人名:刘谦。我们可能需要更多的上下文,如“魔术师刘谦表演”的概念序列concept sequence:[occupation][person][verb],其中[occupation]是专有名词左边的FB的搭配词,[verb]是专有名词NE右边的搭配词。
2.概念序列(concept sequence)过短,譬如仅含有一或两个字时,容易产生歧异导致辨识错误。此时,类似于前1点的情况,我们就要同时考虑利用专有名词NE外部的FB来辅助,以产生更长更稳定的概念序列(concept sequence)。
请参考图22所示,其为根据本申请一实施例的一句子的一概念序列,其包含了专有名词。请考虑以下的英文句子:The Transcription Factor T-Bet is Regulated byMicroRNA-155in Murine Anti-Viral CD8+T Celles via SHIP-1。这个句子包含了三个基因:T-Bet,MicroRNA-155与SHIP-1。使用简化方法,我们可以把句子简化成:T-Bet isregulated by MicroRNA-155in T Cells via SHIP-1。再将字词替换成其语意标签,我们得到以下的标签序列:[Gene1][BE_Ved_By][Gene2]{Through}[Gene3][IN]{Cell}。与基因之间关系的相关部分是:[Gene1][BE_Ved_By][Gene2]{Through}[Gene3],也就是如图22所示的概念序列。任何符合此概念序列的句子都会被指定以下的关系:1.正向配对:(Gene1,Gene2),(Gene2,Gene3);2.负向配对:(Gene1,Gene3)。
利用FB进行断词以及语音识别
正确的断词也会满足词与词之间合乎FB的搭配关系。既然我们前面的依存剖析树的算法是以搭配词为出发点,其所选取之搭配词理应有正确的词界。如果接收到的是语音音节,我们同样可以先产生对应的词汇,然后同样利用依存剖析树的算法。
如果输入的是“字符串”、“注音串”、“无声调的拼音串”或“语音串”时,我们都使用前述的依存剖析树的算法去进行分析。在“字符串”输入时,依存剖析树完成后,自然就得到一组断词。在其他音串输入的情况下,我们除了得到断词的结果,还会将对应的音转成字。FB在语音输入时,依旧有强大的排岐能力,差别是我们要用到的搭配词的链结强度计算需要更为精确,因为可能发生的歧异词数量将大为增加。但经由FB和结构(文法)的过滤,还是能够有效产生正确的依存剖析树。
同时,在音串输入时,我们系统可同时辨识“未知词”,也就是需要利用专有名词NE内部或外部的FB或者更长的概念序列(concept sequence)来确认未知词的种类,以及内部组合方式。
利用FB进行自然语言生成
首先,我们搜集了中文动词的论元框架。其次,对每一个动词,搜集许多以此动词为主动词的例句,同时,对每一个名词,也搜集许多含有此名词修饰语的词组,并生成其对应的实例图instance map。当我们要生成一个新的自然语言句子时,会:
1.(S2501)确认主要的论元如S,V,O为何,以及每一个词的修饰语为何。
2.(S2502)接着依照这个动词的框架,将以上的信息填入其实例图instance map。
3.(S2503)藉由事先搜集关于V的框架及例句,我们可以选取合适的论元位置。
4.(S2504)下一步,将每一个论元的修饰语填入句子中。由于语言的特性,我们可以假设这部分对每一个论元可以分别独立为之。也就是说,对每一个论元,我们可以从之前搜集的论元描述的词组及实例图instance map并参照前面名词词组的结构,学习出如何将目前的修饰语填入这个论元的周遭。举例而言,下面的例子“一只可爱的小花猫”,告诉我们,对动物而言,描述大小的“小”要放在颜色“花”的前面。但是当颜色有多于一个字时,又必需放在前面,譬如“一只深灰色的小猫”。
利用FB进行机器翻译
本发明可以应用在任何语言,FB(X)的搜集也是如此。有了这些数据后,任何语言的句子都可以进行依存剖析。同时,可以得到一个对应的实例图instance map。下面我们就以一个例子来说明如何利用这样的实例图instance map和FB来进行翻译。首先,我们看下面(1),(2),(3)句的中文句子。这些句子的意义都相同,只是要强调的主题不太一样。其下为相对应的实例图instance map。针对这个中文的实例图instance map,我们可以将其中的中文词转译为英文。为了维持和谐性,这个转译需要用到英文的搭配词。所以,“处理”“计划”的对应英文搭配词为handle project。有了这些英文的实例图instance map后,我们就可以利用前面说到的自然语言生成,来产生英文的句子。相对的,一个英文句子要翻译成中文,也可以依循刚才的方式,先进行依存剖析,再利用实例图instance map上面的英文词所对应的中文搭配词,产生中文的实例图instance map,然后产生中文句子。
1.这个计划你处理得很不错
2.你这个计划处理得很不错
3.处理这个计划你很不错
你(you)
event:处理(handle)
target:计划(project)
结果:很不错(very good)
4.You handled this project well.
5.You are very good in handling this project.
这里还需要强调在利用FB进行自然语言生成时,有两种输入方式:
1.使用者给定一个句子,譬如一个经由Google翻译出来的句子,希望能得到意思相近但更为流畅的句子。我们是先利用FB协助产生依存剖析树。在过程中,使用者可能使用了不适当的搭配词,依存剖析树的计算可能需要用到更通用更上位(general)的语义类别(semantic class),而不只是原本的FB实词。同时,需要将相关的主词、动词、受词(SVO,subject verb object)以及修饰语的搭配词选好。既然我们的数据库已经有许多写好的句子及其对应的实例图(instance maps),这些就可拿作为从实例图转换到句子的训练语料。
2.使用者指定了人、事、时、地、物以及相关的修饰语,由我们系统产生句子。这时,我们等于已经有了实例图,只是需要将相关的主词、动词、受词(SVO,subject verbobject)以及修饰语的搭配词选好,将原来用语不合适的替换或剔除,后面就和前1点的做法类似。
参考文献(References)
[1]广义知网http://www.aclclp.org.tw/use_ckip_c.php
[2]H.M.Wain,E.A.Bruford,R.C.Lovering,M.J.Lush,M.W.Wright,andS.Povey,"Guidelines for human gene nomenclature,"Genomics,vol.79,no.4,pp.464-70,Apr 2002.
请参考图16所示,其为根据本发明一实施例的一电子系统1400的一方块示意图。该电子系统1400包含一计算装置1410、一输入设备1420、一输出装置1430、一内存装置1450与一数据库系统1440。在一实施例当中,该电子系统1400为单一的计算器系统,该计算装置1410用于存取该内存装置1450所存储的软件,执行一操作系统与应用程序,控制上述的输入设备1420、输出装置1430、内存装置1450与数据库系统1440。在一实施例当中,该数据库系统1440与该计算装置1410位于不同的计算器系统当中,彼此以有线或无线的网络连接。举例来说,该数据库系统可以是提供任何关系数据库管理系统(Relational DBMS)或非关系数据库管理系统的计算器系统。例如为微软公司SQL Server、甲骨文公司的Oracle、MySQL等数据库管理系统。该计算装置1410可以执行上述的数据库管理系统,以便作为上述的数据库系统1440,供其他过程调用使用。
该输入设备1420可以包含键盘、鼠标、光盘、网络、麦克风与/或其他的外接装置,用户可以透过该输入设备1420将数据或文字输入到该计算装置1410当中。当输出装置1430可以包含屏幕、网络、音响与/或其他的外接装置,该计算装置1410的计算结果可以透过该输出装置1430输出。
在一实施例当中,该计算装置1410的计算结果可以组织成特定的数据结构储存到该内存装置1450当中,也可以储存到该数据库系统1440当中。
请参考图17,其为根据本发明一实施例的自然语言的生成方法。该生成方法如以下相关的发明点所描述。
请参考图18,其为根据本发明一实施例的主体词的简化方法。该简化方法如以下相关的发明点所描述。
请参考图19,其为根据本发明一实施例的一种句子的语意分析方法。该语意分析方法如以下相关的发明点所描述。
根据计算机软件发明审查基准的规定,本申请提供了具有技术领域方面的功效。本申请可以应用于“自然语言”的语意分析,根据语意分析后的实例图instance map可以馈入人工智能系统或呼叫其余程序,最后再生成自然语言加以响应。举例来说,可以根据自然语言的语意分析结果,查询相关的数据库,并且将数据库查询结果依照自然语言进行输出。例如可以分析使用者输入的语意为开启客厅的冷气机至26度,然后透过智慧家庭的控制器,令位于客厅的冷气机启动,并且设定温度至26度。最后再以自然语言输出合成的声音,响应使用者说客厅的冷气机已经启动,并且设定至26度。
本申请可以应用于客户服务系统,社群软件的不雅语言审查机制,各种机器的语音控制接口,机器翻译等,在技术上可以省却计算时间,尽可能地及时或实时响应使用者的输入。除此之外,还可以方便用户用语音输入,以及语音输出。使得使用者无需学习各式机器的特殊控制接口,即可以控制机器。由于本申请系用机器来对自然语言进行辨识,而自然语言辨识原本须借助人类心智活动方能执行,而发明中以特殊的算法取代人类心智,则本算法可令整体发明具有技术性。换言之,本申请可以提高信息系统的执行效率,加强自然语言的语意辨识精确度,方便使用者操控机器等,应当符合发明之定义。
以下为发明点与其对应到上述实施例的简要说明。
发明点1,一种句子的语意分析方法(如图19所示),包含:(S101)接收包含多个字的一句子;(S1102)根据一数据库内的多个词(亦即词X)与每一个该词对应之搭配词(亦即FB(X))的集合,寻找该多个字当中的一或多个第一词与一或多个第二词(亦即利用FB进行断词),其中每个该第一词均包含在该数据库的该多个词当中,每一个该第二词均包含在该数据库的多个该搭配词当中(第二词为第一词的搭配词,例如图一实施例当中,苹果可以是第一词,富士、个、每公斤、元可以是相对于苹果的第二词,给是第一词,打算、明天可以是相对应给的第二词);(S1103)当某一该第一词与某一该第二词在该数据库是对应关系时,简化产生一主体词数据结构,该主体词数据结构包含该第一词与至少一个该第二词(主体词数据结构可以如图一与图2当中的每一个中括号);(S104)重复该简化建立主体词数据结构的步骤,直到找到所有的该第二词的对应关系为止,据以产生该句子所对应的至少一个该主体词数据结构(每个句子至少要有一个主体词数据结构,这个主体词数据结构的第一词可以是名词或是动词);(S105)当有复数个主体词数据结构被产生时,找出该复数个主体词数据结构当中的一主体动词数据结构,其中该主体动词数据结构的该第一词为动词(当有两个以上的主体词数据结构被产生时,该句子至少应会有一个动词,作为主体动词数据结构);以及(S106)产生一语意结构(亦即语意结构图或实例图instance map,如图二右边的括号所示的数据结构),其中该语意结构包含该主体动词数据结构所对应的一动词框架,该复数个主体词数据结构系按照该动词框架的安排。
发明点2,如发明点1的语意分析方法,其中该第二词为具有至少一主体词数据结构的一子句(例句为“我看彗星撞地球的电影”,彗星撞地球是子句,电影是第一词,彗星撞地球是第二词,动词框架是主体词我+动词看+主体词电影)。
发明点3,如发明点1的语意分析方法,其中该复数个主体词数据结构其中之一的该第二词与该第一词在该句子中的顺序是该第二词在该第一词之前(例如图一实施例当中的富士在苹果之前、修饰语+N、修饰语+N的说明)。
发明点4,如发明点1的语意分析方法,其中该复数个主体词数据结构其中之一包含两个以上的该第二词(例如一只小花猫的小、花在猫之前)。
发明点5,如发明点4的语意分析方法,其中在该句子中的两个该第二词之间包含一个“的”字(如修饰语+N当中的修饰语有“的”字)。
发明点6,如发明点4的语意分析方法,其中在该句子中的一个该第二词包含一方位词(时间词组和空间词组有方位词引导)。
发明点7,如发明点1的语意分析方法,其中该复数个主体词数据结构其中之一更包含该句子当中不属于该一或多个第一词与不属于该一或多个第二词的一数量值、一时间词、或一定量结构(例如图一实施例当中的100与两、年月日时分秒、一个、这个、那些等)。
发明点8,如发明点1的语意分析方法,其中该句子中属于同一该主体词数据结构的该第一词不紧邻于该第二词。(例如精神科主治医师,医师为第一词,精神科与主治分别为两个第二词,但精神科不与医师紧邻)。
发明点9,如发明点1的语意分析方法,其中多个该词其中之一是一语意分类树的一第一标签。(例如苹果的标签可以是水果,水果标签在该语意分类树的上一层标签可以是食物。词X本身可能是语意label。)
发明点10,如发明第1点的语意分析方法,其中多个该搭配词其中之一是一语意分类树的一第二标签。(FB(X)里面的搭配词也可能是语意label。)
发明点11,一种主体词的简化方法(如图18所示),包含:(S1101)接收多个字;(S1102)根据一数据库内的多个词与每一个该词对应之搭配词的集合,寻找该多个字当中的一或多个第一词与一或多个第二词,其中每个该第一词均包含在该数据库的该多个词当中,每一个该第二词均包含在该数据库的多个该搭配词当中;以及(S1103)当某一该第一词与某一该第二词在该数据库是对应关系时,简化产生一主体词数据结构,该主体词数据结构包含该第一词与至少一个该第二词。(请见发明点1的说明)
发明点12,如发明点11的简化方法,其中该第二词为具有至少一主体词数据结构的一子句。
(请见发明点2的说明)
发明点13,如发明点11的简化方法,其中该主体词数据结构的该第二词与该第一词在该多个字中的顺序是该第二词在该第一词之前。(请见发明点3的说明)
发明点14,如发明点11的简化方法,其中该主体词数据结构包含两个以上的该第二词。(请见发明点4的说明)
发明点15,如发明点14的简化方法,其中在该多个字当中的两个该第二词之间包含一个“的”字。(请见发明点5的说明)
发明点16,如发明点14的简化方法,其中在该多个字当中的一个该第二词包含一方向词。
(请见发明点6的说明)
发明点17,如发明点11的简化方法,其中该主体词数据结构更包含该多个字当中不属于该一或多个第一词与不属于该一或多个第二词的一数量值、一时间词、或一定量结构。(请见发明点7的说明)
发明点18,如发明点11的简化方法,其中该多个字中属于同一该主体词数据结构的该第一词不紧邻于该第二词。(请见发明点8的说明)
发明点19,如发明点11的简化方法,其中多个该词其中之一是一语意分类树的一第一标签。
(请见发明点9的说明)
发明点20,如发明点11的简化方法,其中多个该词其中之一是一语意分类树的一第二标签。
(请见发明点10的说明)
发明点21,如发明点11的简化方法,其中该数据库包含多个相应于基因的外表或结构的集合,在该多个相应于基因的外表或结构的集合当中的该词包含结构词[Structure],在该多个相应于基因的外表或结构的集合当中的该搭配词包含头分子词[Head_Mol]、说明符词[Specifier]、化学词[Chemical]、器官组织词[Organ_Tissue]、或序列词[Sequence],其中分别对应至该头分子词[Head_Mol]与说明符词[Specifier]的该第二词系依序出现在该句子中对应到该结构词[Structure]的该第一词的后方,分别对应至该化学词[Chemical]、该器官组织词[Organ_Tissue]、或该序列词[Sequence]的该第二词系出现在该句子中对应到该结构词[Structure]的该第一词的前方。(请见基因的外表/结构-Appearance的说明)
发明点22,如发明点11的简化方法,其中该数据库包含多个相应于基因所具有之功能的集合,在该多个相应于基因所具有之功能的集合当中的该词包含目标器官词[Target_Organ],在该多个相应于基因所具有之功能的集合当中的该搭配词包含功能分子词[Function_Mol]、说明符词[Specifier]、或器官组织词[Organ_Tissue],其中分别对应至该功能分子词[Function_Mol]与说明符词[Specifier]的该第二词系依序出现在该句子中对应到该目标器官词[Target_Organ]的该第一词的后方,对应至器官组织词[Organ_Tissue]的该第二词系出现在该句子中对应到该目标器官词[Target_Organ]的该第一词的前方。
发明点23,如发明点11的简化方法,其中该数据库包含多个相应于基因所具有之功能的集合,在该多个相应于基因所具有之功能的集合当中的该词包含目标化学物词[Target_Chem],在该多个相应于基因所具有之功能的集合当中的该搭配词包含功能分子词[Function_Mol]、说明符词[Specifier]、目标分子词[Target_Mol]或化学词[Chemical],其中分别对应至该功能分子词[Function_Mol]与说明符词[Specifier]的该第二词系依序出现在该句子中对应到该目标化学物词[Target_Chem]的该第一词的后方,分别对应至目标分子词[Target_Mol]或化学词[Chemical]的该第二词系出现在该句子中对应到该目标化学物词[Target_Chem]的该第一词的前方。
发明点24,如发明点23的简化方法,其中该数据库包含多个相应于目标化学物的集合,该目标化学物词[Target_Chem]系对应到该多个相应于目标化学物的集合其中之一,在该多个相应于目标化学物的集合当中的该词包含目标分子词[Target_Mol],在该多个相应于基因所具有之功能的集合当中的该搭配词包含化学词[Chemical],其中分别对应至该化学词[Chemical]的该第二词系依序出现在该句子中对应到该目标分子词[Target_Mol]的该第一词的后方。
发明点25,如发明点11的简化方法,其中该数据库包含多个相应于基因之目标序列的集合,在该多个相应于基因之目标序列的集合当中的该词包含目标序列词[Target_Seq],在该多个相应于基因之目标序列的集合当中的该搭配词包含功能分子词[Function_Mol]、说明符词[Specifier],其中分别对应至该功能分子词[Function_Mol]与说明符词[Specifier]的该第二词系依序出现在该句子中对应到该目标序列词[Target_Seq]的该第一词的后方,其中该数据库包含多个相应于描述基因之目标序列说明的集合,该目标序列词[Target_Seq]系对应到该多个相应于描述基因之目标序列说明的集合其中之一,在该多个相应于描述基因之目标序列说明的集合的该词包含化学词[Chemical],在该多个相应于描述基因之目标序列说明的集合的该搭配词包含序列说明符词[Seq_Mod]或序列词[Sequence],其中分别对应至该序列说明符词[Seq_Mod]或序列词[Sequence]的该第二词系依序出现在该句子中对应到该化学词[Chemical]的该第一词的后方,其中该数据库包含多个相应于描述功能分子的集合,该功能分子词[Function_Mol]系对应到该多个相应于描述功能分子的集合其中之一,在该多个相应于描述功能分子的集合的该词包含目标功能词[Target_Function],在该多个相应于描述功能分子的集合的该搭配词包含头分子词[Head_Mol],其中分别对应至该头分子词[Head_Mol]的该第二词系依序出现在该句子中对应到该目标功能词[Target_Function]的该第一词的后方。
发明点26,如发明点11的简化方法,其中该数据库包含多个相应于基因之目标分子的集合,在该多个相应于基因之目标分子的集合当中的该词包含目标分子词[Target_Mol],在该多个相应于基因之目标分子的集合当中的该搭配词包含功能分子词[Function_Mol]、说明符词[Specifier],其中分别对应至该功能分子词[Function_Mol]与说明符词[Specifier]的该第二词系依序出现在该句子中对应到该目标分子词[Target_Mol]的该第一词的后方,其中该数据库包含多个相应于目标细胞与功能的集合,该功能分子词[Function_Mol]系对应到该多个相应于目标细胞与功能的集合的其中之一,在该多个相应于目标细胞与功能的集合当中的该词包含目标细胞词[Target_Cell],在该多个相应于目标细胞与功能的集合当中的该搭配词包含功能目标词[Fun_Obj],其中分别对应至该功能目标词[Fun_Obj]的该第二词系依序出现在该句子中对应到该目标细胞词[Target_Cell]的该第一词的后方,其中该数据库包含多个相应于目标细胞与功能说明的集合,该功能目标词[Fun_Obj]系对应到该多个相应于目标细胞与功能说明的集合的其中之一,在该多个相应于目标细胞与功能说明的集合的该词包含目标功能词[Target_Fun],在该多个相应于目标细胞与功能说明的集合的该搭配词包含目标分子词[Obj_Mol],其中分别对应至该目标分子词[Obj_Mol]的该第二词系依序出现在该句子中对应到该目标功能词[Target_Fun]的该第一词的后方。
发明点27,如发明点11的简化方法,其中该数据库包含多个相应于基因表现疾病的集合,在该多个基因表现疾病的集合当中的该词包含疾病词[Disease],在该多个基因表现疾病的集合当中的该搭配词包含基因表现词[Gene_Ex]、说明符词[Specifier],其中分别对应至说明符词[Specifier]的该第二词系依序出现在该句子中对应到该疾病词[Disease]的该第一词的后方,其中分别对应至基因表现词[Gene_Ex]的该第二词系依序出现在该句子中对应到该疾病词[Disease]的该第一词的前方,其中该数据库包含多个相应于基因表现的集合,该基因表现词[Gene_Ex]系对应到该多个相应于基因表现的集合的其中之一,在该多个相应于基因表现的集合的该词包含基因符号词[GeneSymbol],在该多个相应于基因表现的集合的该搭配词包含连接词[Linking],其中分别对应至连接词[Linking]的该第二词系依序出现在该句子中对应到该基因符号词[GeneSymbol]的该第一词的后方,其中该数据库包含多个相应于疾病说明的集合,该疾病词[Disease]系对应到该多个相应于疾病说明的集合的其中之一,该多个相应于疾病说明的集合的该词包含主疾病词[Disease_Main],该多个相应于疾病说明的集合的该搭配词包含疾病补词[Disease_Suf],其中分别对应至疾病补词[Disease_Suf]的该第二词系依序出现在该句子中对应到该主疾病词[Disease_Main]的该第一词的后方。
发明点28,如发明点11的简化方法,其中该数据库包含多个相应于基因表现疾病的集合,在该多个基因表现疾病的集合当中的该词包含疾病词[Disease],在该多个基因表现疾病的集合当中的该搭配词包含基因表现词[Gene_Ex]、说明符词[Specifier],其中分别对应至说明符词[Specifier]的该第二词系依序出现在该句子中对应到该疾病词[Disease]的该第一词的后方,其中分别对应至基因表现词[Gene_Ex]的该第二词系依序出现在该句子中对应到该疾病词[Disease]的该第一词的前方,其中该数据库包含多个相应于基因表现的集合,该基因表现词[Gene_Ex]系对应到该多个相应于基因表现的集合的其中之一,在该多个相应于基因表现的集合的该词包含基因符号词[GeneSymbol],在该多个相应于基因表现的集合的该搭配词包含连接词[Linking],其中分别对应至连接词[Linking]的该第二词系依序出现在该句子中对应到该基因符号词[GeneSymbol]的该第一词的后方。
发明点29,如发明点11的简化方法,其中该数据库包含多个相应于基因家族的集合,在该多个相应于基因家族的集合当中的该词包含基因家族词[Gene_Fam],在该多个相应于基因家族的集合当中的该搭配词包含功能分子词[Function_Mol]、说明符词[Specifier],其中分别对应至功能分子词[Function_Mol]或说明符词[Specifier]的该第二词系依序出现在该句子中对应到该基因家族词[Gene_Fam]的该第一词的后方,其中该数据库包含多个相应于功能分子的集合,该功能分子词[Function_Mol]系对应到该多个相应于功能分子的集合的其中之一,在该多个相应于功能分子的集合的该词包含头分子词[Head_Mol],在该多个相应于功能分子的集合的该搭配词包含化学词[Chemical]、目标功能词[Target_Function],其中分别对应至功能分子词化学词[Chemical]或目标功能词[Target_Function]的该第二词系依序出现在该句子中对应到该头分子词[Head_Mol]的该第一词的前方。
发明点30,如发明点11的简化方法,其中该数据库包含多个相应于基因同源出处的集合,在该多个相应于基因同源出处的集合当中的该词包含基因分子[Gene_Mol],在该多个相应于基因同源出处的集合当中的该搭配词包含头分子词[Head_Mol],其中分别对应至头分子词[Head_Mol]的该第二词系依序出现在该句子中对应到该基因分子[Gene_Mol]的该第一词的后方,其中该数据库包含多个相应于基因分子的集合,该基因分子词系对应到该多个相应于基因分子的集合的其中之一,在该多个相应于基因分子的集合的该词包含物种词[Species],在该多个相应于基因分子的集合的该词包含基因符号词[GeneSymbol]、目标分子词[Obj_Mol],其中分别对应至基因符号词[GeneSymbol]的该第二词系依序出现在该句子中对应到该物种词[Species]的该第一词的前方,其中分别对应至目标分子词[Obj_Mol]的该第二词系依序出现在该句子中对应到该物种词[Species]的该第一词的后方。
发明点31,如发明点11的简化方法,其中该数据库包含多个相应于基因疾病的集合,在该多个相应于基因疾病的集合当中的该词包含疾病词[Disease],在该多个相应于基因疾病的集合当中的该搭配词包含头分子词[Head_Mol],其中分别对应至头分子词[Head_Mol]的该第二词系依序出现在该句子中对应到该疾病[Disease]的该第一词的后方,其中该数据库包含多个相应于疾病的集合,该疾病词[Disease]系对应到该多个相应于疾病的集合的其中之一,在该多个相应于疾病的集合的该词包含疾病名词[Disease_Name],在该多个相应于疾病的集合的该词包含疾病阶段词[Disease_Stage]、器官词[Organ]、说明符号词[Specifier],其中分别对应至说明符号词[Specifier]的该第二词系依序出现在该句子中对应到疾病名词[Disease_Name]的该第一词的后方,其中分别对应至疾病阶段词[Disease_Stage]、器官词[Organ]的该第二词系依序出现在该句子中对应到疾病名词[Disease_Name]的该第一词的前方。
发明点32,一种自然语言的生成方法(如图17所示,请见利用FB进行自然语言生成的段落),包含:接收一语意结构(亦即步骤S2502所产生的实例图instance map),其中该语意结构包含一动词框架,该动词框架更包含多个主体词数据结构,其中每一个该主体词数据结构包含一第一词与该第一词所对应的一或多个第二词;根据该动词框架,产生包含多个字的一句子,其包含各个该主体词数据结构当中的该第一词(亦即步骤S2503);以及根据每一个该主体词数据结构当中的该第二词与其对应的该第一词的关系,将每一个该主体词数据结构当中的该第二词插入到该句子中的该第一词的相应位置(亦即步骤S2504)。
发明点33,如发明点32的生成方法,其中该多个主体词数据结构当中至少包含一个主体动词数据结构,该主体动词数据结构所包含的该第一词为动词,该动词架构相应于该主体动词数据结构所包含的该第一词(步骤3系依据V动词的框架进行)。
发明点34,如发明点32的生成方法,更包含:当该主体词数据结构包含两个以上的该第二词时,根据该两个第二词分别与该第一词的前后结合在训练语料当中出现的统计频率或次数,决定该两个第二词插入到该句子当中的顺序(例如小花猫的小和花的顺序,取决于训练数据当中小花猫与花小猫的出现频率或次数)。
发明点35,如发明点32的生成方法,更包含在该句子当中的该两个第二词中间插入一个“的”字(例如一只可爱的小花猫和一只深灰色的小猫)。
发明点36,如发明点32的生成方法,更包含:在接收以一第一种语言表示的该语意结构之后,将该动词框架所包含的每一该多个主体词数据结构中的该第一词与该第二词翻译成一第二种语言表示的该第一词与该第二词,其中产生该句子的步骤与插入该第二词的步骤系使用该该第二种语言进行。(即利用FB进行机器翻译)
发明点37,一种用于句子的语意分析的电子系统(第一组发明点的方法项在图16所示的电子系统中实作),包含:一数据库系统,用于存储多个词与每一个该词对应之搭配词的集合;一输入设备,用于接收包含多个字的一句子;以及一计算装置,用于连接该数据库系统与该输入设备,执行软件指令以实现如发明点1至10其中之一的语音分析方法。
发明点38,一种用于主体词的简化的电子系统(第二组发明点的方法项在图16所示的电子系统中实作),包含:一数据库系统,用于存储多个词与每一个该词对应之搭配词的集合;一输入设备,用于接收包含多个字的一句子;以及一计算装置,用于连接该数据库系统与该输入设备,执行软件指令以实现如发明点11至31其中之一的主体词的简化方法。
发明点39,一种用于自然语言的生成的电子系统(第三组发明点的方法项在图16所示的电子系统中实作),包含:一输入设备,用于接收一语意结构;以及一计算装置,执行软件指令以实现如发明点32至36其中之一的自然语言的生成方法。
请参考图20所示,其为根据本申请一实施例的一自然语言处理方法1900的一流程示意图。该自然语言处理方法1900可以实施于图16所示的电子系统当中,用于产生语意结构。该自然语言处理方法1900可以判断输入是否符合文法。所输出的语意结构可以留给图21与图22所示的方法分别进行机器翻译与控制。
该自然语言处理方法1900会使用到图16所示的数据库系统1440。该数据库系统1440可以包含多个集合。每一个集合(set)包含一个或多个对应关系。该对应关系可以是词X与其搭配词的集合FB(X)。每一个集合可以具有一或多个集合属性(property)。集合属性可以包含表示词X的语言,例如是中文、英文或其他种的语言。集合属性可以包含词X的词性,例如是动词、名词、形容词、副词等。
对应到一个词X的一个搭配词CX,也可以具有一或多个搭配属性。举例来说,搭配属性可以包含该词X和搭配词CX在训练语料中出现的频率、次数或强度(intensity)。搭配属性还可以包含词界(domain),例如是生物学用语、计算器科学用语等。搭配属性可以表示搭配词CX与词X在训练语料当中的前后顺序,例如某个搭配词CX出现在词X之前或之后。搭配属性还可以表示搭配词CX是否与词X相邻,或可以间接相邻。
在一实施例当中,搭配词CX可以是词X的本体论(ontology)当中的事件(event)、属性(property)或其他的讯息。在另一实施例当中,搭配词可以是词X的上层本体(ontology)当中的事件、属性或其他的讯息。如前所述,本体论可以是如E-HowNet[1]所述的结构。关于这种搭配词CX可以参考先前所述的“地雷范围”的说明。其搭配属性可以记载着搭配词CX与词X在本体论分别所属的阶层,以及阶层之间的关系。
在一实施例当中,当该词X是名词时,其搭配词CX可以紧邻在词X之前。在另一实施例当中,当该词X是中文名词时,其搭配词CX与词X之间可以包含一个的字。该搭配词CX的搭配属性可以表示在搭配词CX之后具有的字。如前所述,该搭配词CX可以是形容词A、另一个名词N、动词V等。该搭配词CX也可以是由多个字词所组成的动词词组、时间词组或空间词组。
在一实施例当中,为了进行机器翻译,以第一语言表示的词X,其搭配语CX可以是以第二语言表示的同义词。举例来说,先前所述的中文词“处理”,其搭配词为英文词handle。搭配属性可以标注为第二语言,亦即英文。由于日常用语当中经常有中英夹杂的情况,如果输入的复数个字中有多种语言表示的字,可以先将其翻译成同一种语言,再利用以第二语言表示的词X’,找出其第二语言表示的搭配词CX’。
虽然前一段提到先翻译词X为第二语言表示的词X’,再寻找搭配词CX’的作法,但本申请也可以适用于词X和搭配词CX分别属于不同语言的情况。
如上所述,一个集合当中,可以包含一个词X与其搭配的一或多个搭配词CX。该一或多个搭配词CX,组成了词X的搭配词集合FB(X)。
在一实施例当中,为了进行专有名词辨识,该词X的搭配词CX并非另一个词,而是一个概念标签(concept tag)。如前所述,关于人类基因名称的辨识时,每个词X可以对应到一个概念标签。因此,当该搭配词CX是一个概念标签时,该搭配词CX的搭配属性可以表示其搭配关系为概念标签。
在一实施例当中,该数据库系统1440还可以包含多个标签序列(labelsequence),用于辨识专有名词。每一个标签序列包含多个标签(tag)。每个标签(tag)还可以包含一或多个标签,或是另一个标签序列,以便形成一个递归的结构。换言之,标签可以对应到标签与标签序列的任意组合。当词X的搭配词CX是概念标签(concept tag),而且该概念标签为某一标签序列所包含的一个标签时,该词X可以被视为组成该标签序列的一分子。当该标签序列的所有标签都能够各自对应到一个词X时,则可以认为这些词的序列为合乎该标签序列的一个专有名词。
使用相同的方式,如年月日或时分秒之类的时间词组,也可以表示为标签序列。将数字当成是一种概念标签,就可以得到时间词组。类似地,空间词组或定量结构也可以表示为标签序列。
在一实施例当中,词X可以是一个专有名词,例如为各个公司行号与机关的名称或缩写。该词X的搭配词CX也是一个概念标签(机关名称标签)。除了前述的基因名称之外,也可以适用于特定机关名称辨识。例如以下的标签序列来标注学校全衔:[上级机关所立][专有名词][学校层级]。“市立雨农国民小学”当中的市立即属于[上级机关所立]的概念标签,国民小学即属于[学校层级]的概念标签,而雨农则属于专有名词的概念标签。
在执行步骤1910之前,已经先具备了上述的数据库系统1440。接着,执行步骤1910,接收复数个字。这些字可以是一个句子,也可以是不成句子的名词词组。如果是一个句子,则至少会包含一个动词,也就是祈使句。如果是主词加上动词的组合,就形成一个简单句。
在一实施例当中,步骤1910所接收的该复数个字还可以是由多个音节组成,例如先前所提到的“注音串”、“无声调的拼音串”或“语音串”。多个音节可以组合成一个以上的字。步骤1920:根据该数据库,递归地令该复数个字组成一个以上的主体词数据结构。例如图1和图2的实施例,在该复数个字当中,可以找到一或连续的多个字所组的词能够对应到该数据库当中的词X或是搭配词CX。接着,可以递归地令这些词组成依存剖析树。在这些词当中,可能是对应到某个集合的词X的第一词,也可能是对应到同一集合的搭配词CX的第二词,因此当两个词符合其搭配属性之时,就可以帮第一词建立依存剖析树,将第二词简化到第一词的依存剖析树的树状结构当中。
在一实施例当中,可以利用本体论的关系,将第二词简化到第一词的依存剖析树内。也就是说,在数据库系统当中,第二词并非属于第一词的搭配词,但第二词和第一词的搭配词属于本体论当中相同的类别,因此可以动态地建立第二词与第一词的弱搭配关系。换言之,也就能将第二词简化到第一词的依存剖析树。
在一实施例当中,可以利用某些词对应到的概念标签,将其组合归纳成专有名词、时间词组、空间词组与定量结构的标签序列或概念序列。例如先前提到的人类基因名称。
在简化成多个依存剖析树之后,可以再将这些依存剖析树进一步递归地简化成一或多个主体词数据结构。如前所述,当主体词数据结构的主体词为名词或动词时,则其主体词数据结构可以包含以该名词或动词为主的依存剖析树结构。在图1所示的范例当中,可以见到两个以苹果为第一词的依存剖析树结构,被简化合并成一个依存剖析树结构。在图2所示的范例当中,可以见到以“给”字为第一词的依存剖析树。
步骤1920可以包含多个简化子步骤。在编写的程序语言当中,例如是C、C++或是Java等,可以递归地执行上述的一或多个简化子步骤,以便形成多层的依存剖析树的树状结构。这些简化子步骤之一,可以是将根据数据库中词X与其FB(X)搭配关系来形成依存剖析树的一部份。简化子步骤之另一,可以是根据搭配属性中的本体论的阶层关系,动态地或静态地形成依存剖析树的一部份。简化子步骤之一,还可以是根据数据库中的标签序列以及搭配属性中的概念标签来形成依存剖析树的一部份。
当可以产出多个依存剖析树而产生歧异时,可以根据搭配属性所记载的频率、次数或强度,来决定这些依存剖析树的强度。当第一个依存剖析树内的多个搭配关系的频率、次数或强度的总和,大于第二个依存剖析树内的多个搭配关系的频率、次数或强度的总和时,可以认为第一个依存剖析树的强度要大于第二个依存剖析树。当受到计算资源或时间的限制,而无法对所有产出的多个依存剖析树进行后续步骤,可以先对具有最大强度的依存剖析树进行后续步骤。
例如当步骤1910接收到的是多个音节时,则可能产生多个字的组合。每一个组合都可能产生出一个依存剖析树,也就是会造成歧异。例如,当输入的是音节“qi yi”时,会产生“歧异”、“奇异”与“歧义”三种候选词。步骤1920可以就这三个候选词分别进行简化,看看它们是否能和其他的词组成主体词数据结构。如果有多个候选词可以产生被简化成多个依存剖析树时,则同样要依据这些依存剖析树的强度,来判断哪一个候选词是正确的。
步骤1930:找出该一或多个主体词数据结构中的主体动词结构。在图2所示的范例当中,可以见到以给字为主的主体动词数据结构。由于所接收的复数个字当中,未必是一个完整的句子,当判断结果为是时,流程走向步骤1940,否则走向步骤1950。
在一实施例当中,由于一个句子当中可能包含动词词组或子句,使得在复数个字当中具有复数个动词。由于步骤1930可以将动词词组或子句简化到另一个主体词数据结构内,因此,在多个主体词数据结构所形成的森林(forest)当中,应当只有一个独立的主体动词数据结构。当具有两个独立的主体动词数据结构时,很可能是先前提到的断词错误,流程可以回到重新采用另一个词的组合,将某一个动词词组或子句简化到其中一个主体词数据结构内。
步骤1940:根据该主体动词数据结构的动词框架,形成语意结构。在图2的实施范例中,根据给字的动词框架,可以形成一个树状结构的语意结构,或者称为实例图(instance map或是incidence map)。
步骤1950:根据一或多个主体词数据结构,形成语意结构。在图1的实施例当中,根据苹果为主的依存剖析树,可以形成一个语意结构来修饰苹果。通常来说,如果找出主体动词数据结构时,该语意结构应当只包含一个主体词数据结构。如果有多个主体词数据结构时,则可以形成一个森林型态的语意结构。
无论输入的是哪一种语言的字或音节,所形成语意结构应该包含了所有输入的字和音节。如果有任何输入的字无法容纳到该语意结构时,表示该语意结构有误。
在一实施例当中,当步骤1940或1950产出多个语意结构时,可以根据其搭配属性所记载的频率、次数或强度,来决定这些语意结构的强度。当第一个语意结构内的多个搭配关系的频率、次数或强度的总和,大于第二个语意结构内的多个搭配关系的频率、次数或强度的总和时,可以认为第一个语意结构的强度与/或正确性要大于第二个语意结构。当受到计算资源或时间的限制,而无法对所有产出的多个语意结构作上下文的比对步骤时,可以输出具有最大强度或正确性的语意结构。
请参考图21所示,其为根据本申请一实施例的机器翻译方法2000的一流程示意图。该机器翻译方法2000可以实施于图16所示的电子系统当中。该机器翻译方法2000会使用到图16所示的数据库系统1440与一翻译辞典。该数据库系统1440所包含的集合有如前述,该翻译辞典可以包含第一语言和第二语言分别表示的对应字词。
步骤2010:接收以第一语言表示的一语意结构。该语意结构可以是步骤1940或1950所产生的语意结构,内含的字词是以第一语言表示。
步骤2020:将该语意结构内的每一个字词翻译成第二语言。如前所述,在一实施例当中,当该数据库系统1440当中具有以第一语言表示的词X与以第二语言表示的搭配词X’时,可以将语意结构内的该词X翻译为其搭配词X’。在另一实施例当中,可以利用该翻译辞典,将语意结构内的某词翻译成对应的第二语言的字词。由于在数据库系统1440当中的集合可能具有词界的搭配属性,因此在翻译时可以更准确地根据上下文所得到的词界,来寻找较为适当的搭配词来翻译。
步骤2030:根据数据库,将该语意结构内的所有词排列成以第二语言表示的一序列。由于在搭配属性可能记载了搭配词CX与词X之间的前后顺序关系,两者是否可以紧邻,以及搭配关系在训练材料中出现的频率、次数或强度,因此可以根据第二词与第一词之间的搭配属性,来决定语意结构内的所有词的排列顺序。
当该语意结构表示一个完整的句子时,可以依据该语意结构中的主体动词数据结构的动词框架,形成该句子的各词的顺序。举例来说,依据日文的动词框架,将中文我吃早餐翻译成日文时,就会出现我早餐吃的结果,其动词与受词的排列顺序不同。换言之,透过语意结构进行输出,可以避免文法错误的问题。
再者,根据训练材料当中,第一词与第二词出现的频率、次数或强度,能让以第二语言作为母语的人们认为翻译较为通顺,而减少出现语句不通的问题。当某一词具有多种对应的翻译词时,还可以根据搭配属性当中的词界,来决定哪一个翻译词较为正确。
请参考图22所示,其为根据本申请一实施例的机器控制方法2100的一流程示意图。该机器控制方法2100可以实施于图16所示的电子系统当中。
步骤2110:接收具有一主体动词数据结构及其框架的一语意结构。该语意结构可以是步骤1940或1950所产生的语意结构。
步骤2120:根据该主体动词数据结构当中的动词,找出对应的一指令。举例来说,先前段落中提到智能家庭的控制器接收到用户的语音指令:开启客厅的冷气机至26度,开启为该语意结构当中的动词,对应的指令就是启动冷气机。
可选的步骤2130:根据该主体动词数据结构及其框架,找出该对应指令的一或多个参数。在先前的范例当中,启动的受词是客厅的冷气机,即为对应指令的一个参数。26度则为该对应指令的另一个参数,即设定温度至26度。
步骤2140:执行对应的指令。
可选的步骤2150:将收到的响应组成另一语意结构。当机器执行指令之后,可能会有回传的讯息。由于是机器所产生的结构化讯息,因此可以按照固定的对应方式,将其转换成另一语意结构。举例来说,当机器输出响应的数字码时,可以将响应码对应到搭配的文字讯息,放置到该另一语意结构当中。
可选的步骤2160:可以根据数据库,将该另一语意结构内的所有词排列组合成一序列输出。此步骤类似于步骤2030,但无需翻译成第二语言。
根据本申请的一面向,提供一种自然语言处理方法,包含:接收多个输入字;以及根据一数据库内的多个集合,简化该多个输入字,以形成一或多个主体词数据结构,其中该一或多个主体词数据结构之一包含该多个输入字之中的一第一输入词与一第二输入词,其中该多个集合之一包含该第一输入词与该第二输入词的搭配关系,其中该第一输入词与该第二输入词的该搭配关系包含一搭配属性,用于记载在训练语料中该第一输入词与该第二输入词出现的频率、次数或强度。
更进一步的,为了简化具有多个搭配词的主体词,其中该主体词数据结构之一包含该多个输入字之中的一第三输入词,其中该多个集合之另一集合包含该第二输入词与该第三输入词的搭配关系,其中该主体词数据结构包含一树状结构,该第一输入词为该树状结构的根节点,该第二输入词为该第一输入词的子节点,该第三输入词为该第二输入词的子节点。
更进一步的,为了简化具有词组或子句的主体词,其中该主体词数据结构之一包含该多个输入字之中的一第三输入词,其中该多个集合之另一集合包含该第一输入词与该第三输入词的搭配关系,其中该主体词数据结构包含一树状结构,该第一输入词为该树状结构的根节点,该第二输入词为该第一输入词的子节点,该第三输入词为该第一输入词的子节点。
更进一步的,为了弥补数据库内所含的搭配关系不足,可以利用主体论来形成搭配关系,其中该多个主体词数据结构之另一包含该多个输入字之中的一第三输入词与一第四输入词,该第三输入词与该第四输入词分别对应到主体论的同一阶层或上下阶层,该多个集合当中并不包含该第三输入词与第四输入词的搭配关系。
更进一步的,为了辨识与简化专有名词、时间词组、空间词组或固定格式的文意,其中该多个主体词数据结构之另一包含一专有名词,该专有名词依序包含该多个输入字之中的一第三输入词与一第四输入词,该多个集合之一第三集合包含该第三输入词与一第三标签的搭配关系,该多个集合之一第四集合包含该第四输入词与一第四标签的搭配关系,该数据库更包含一标签序列,该标签序列包含依序排列的该第三标签与该第四标签。
更进一步的,为了辨识与简化递归形式组成的专有名词、时间词组、空间词组或固定格式的文意,其中该多个主体词数据结构之另一包含一专有名词,该专有名词依序包含该多个输入字之中的一第三输入词、一第四输入词与一第五输入词,该多个集合之一第三集合包含该第三输入词与一第三标签的搭配关系,该多个集合之一第四集合包含该第四输入词与一第四标签的搭配关系,该多个集合之一第五集合包含该第五输入词与一第五标签的搭配关系,该数据库更包含一第一标签序列与一第二标签序列,该第一标签序列包含依序排列的该第三标签与该第二标签序列,该第二标签序列包含依序排列的该第四标签与该第五标签。
更进一步的,为了简化具有未知词的专有名词,其中该多个主体词数据结构之另一包含一专有名词,该专有名词依序包含该多个输入字之中的一第三输入词、一第四输入词与一第五输入词,该多个集合之一第三集合包含该第三输入词与一第三标签的搭配关系,该多个集合之一第五集合包含该第五输入词与一第五标签的搭配关系,该数据库更包含一第一标签序列,该第一标签序列包含依序排列的该第三标签、一第四标签与该第五标签,其中该第四输入词不在该多个集合当中的任何一个搭配关系中。
更进一步的,为了更精确地进行语意分析、机器翻译与弥补数据库内所含的搭配关系不足,其中该多个集合之一更包含一词、与该词搭配的一或多个搭配词、以及下列集合属性的其中之一或其任意组合:记载该词之词性的集合属性;记载该词表示语言的集合属性;以及记载该词属于主体论之阶层的集合属性。
更进一步的,为了更精确地进行语意分析、机器翻译与弥补数据库内所含的搭配关系不足,其中该多个集合之一的搭配关系更包含下列搭配属性的其中之一或其任意组合:记载该搭配关系中的一词与该搭配词的先后次序的搭配属性;记载该词与该搭配词是否必须紧邻的搭配属性;记载该词与该搭配词的词界的搭配属性;记载该搭配词表示语言的搭配属性;记载该搭配词是否为标签的搭配属性;记载该搭配词属于主体论之阶层的搭配属性;以及记载该搭配词之词性的搭配属性。
更进一步的,为了更精确地利用语意结构来进行语意分析,该自然语言处理方法更包含:寻找该一或多个主体词数据结构当中的一主体动词数据结构;当找到该主体动词数据结构时,根据该主体动词数据结构的动词框架,形成树状结构的一语意结构;以及当找不到该主体动词数据结构时,根据该一或多个主体数据结构形成森林型态的该语意结构,其中该语意结构包含所有的该一或多个主体词数据结构。
更进一步的,本申请可以适用于以两种语言表示的复数个字,其中该多个输入字当中的至少一个输入词以第一语言来表示,该多个输入字当中的另一个输入词以第二语言来表示。
更进一步的,为了进行机器翻译,该自然语言处理方法更包含:将该语意结构内的每一个以第一语言表示的该输入词,翻译成以第二语言表示的该输入词;以及根据具有以第二语言表示的该多个输入字的该多个集合中的多个搭配关系,将该语意结构内的所有的该多个输入字排列组成以第二语言表示的一序列。
更进一步的,为了利用数据库中的搭配关系进行更准确的翻译,其中该多个集合之一包含该第一语言表示的该输入词与该第二语言表示的该输入词的搭配关系,该翻译步骤系根据该第一语言表示的该输入词与该第二语言表示的该输入词的搭配关系来进行。
更进一步的,为了利用搭配关系的强度来解决具有歧异的相依剖析树的情况,其中该多个集合之另一包含该多个输入字之中的该第一输入词与一第三输入词的搭配关系,该第一输入词与该第三输入词的该搭配关系包含令一搭配属性,用于记载在训练语料中该第一输入词与该第三输入词出现的第二强度,该自然语言处理方法更包含:判断该强度与该第二强度的何者较大;当该强度较大时,将该第一输入词与该第二输入词形成该一或多个主体词数据结构之一;以及当该第二强度较大时,将该第一输入词与该第三输入词形成该一或多个主体词数据结构之一。
更进一步的,为了满足语意结构必须包含所有的输入词,该自然语言处理方法更包含:当该强度较大时,形成另一个该主体词数据结构,上述的另一个该主体词数据结构包含该第三输入词。
更进一步的,为了解决语音输入或音节输入的情况,该多个输入字包含多个音节,该第一输入词包含该多个音节所组成的一或多个字。
更进一步的,为了能接受语音输入指令,该自然语言处理方法更包含:判断该语意结构是否包含动词框架;当该语意结构包含动词框架时,根据该动词框架所对应的动词,找出对应的一指令;以及执行该指令。
更进一步的,为了能接受较为复杂的语音输入指令,该自然语言处理方法更包含:在执行该指令之前,根据该动词框架,在该语意结构中找出该指令的一或多个参数。
更进一步的,为了能利用自然语言响应用户,该自然语言处理方法更包含:接收该指令执行之后的响应消息;将该响应消息组成一响应消息的语意结构;以及将该响应消息的语意结构内的所有的输入词排列组成一序列。
根据本申请的一面向,提供一种用于自然语言处理的计算装置,用于执行多个指令,以实现前述的该自然语言处理方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (20)
1.一种自然语言处理方法,其特征在于,包含:
接收多个输入字;以及
根据一数据库内的多个集合,简化该多个输入字,以形成一或多个主体词数据结构,其中该一或多个主体词数据结构之一包含该多个输入字之中的一第一输入词与一第二输入词,其中该多个集合之一包含该第一输入词与该第二输入词的搭配关系,其中该第一输入词与该第二输入词的该搭配关系包含一搭配属性,用于记载在训练语料中该第一输入词与该第二输入词出现的强度。
2.如权利要求1所述的自然语言处理方法,其特征在于,其中该主体词数据结构之一包含该多个输入字之中的一第三输入词,其中该多个集合之另一集合包含该第二输入词与该第三输入词的搭配关系,其中该主体词数据结构包含一树状结构,该第一输入词为该树状结构的根节点,该第二输入词为该第一输入词的子节点,该第三输入词为该第二输入词的子节点。
3.如权利要求1所述的自然语言处理方法,其特征在于,其中该主体词数据结构之一包含该多个输入字之中的一第三输入词,其中该多个集合之另一集合包含该第一输入词与该第三输入词的搭配关系,其中该主体词数据结构包含一树状结构,该第一输入词为该树状结构的根节点,该第二输入词为该第一输入词的子节点,该第三输入词为该第一输入词的子节点。
4.如权利要求1所述的自然语言处理方法,其特征在于,其中该多个主体词数据结构之另一包含该多个输入字之中的一第三输入词与一第四输入词,该第三输入词与该第四输入词分别对应到主体论的同一阶层或上下阶层,该多个集合当中并不包含该第三输入词与第四输入词的搭配关系。
5.如权利要求1所述的自然语言处理方法,其特征在于,其中该多个主体词数据结构之另一包含一专有名词,该专有名词依序包含该多个输入字之中的一第三输入词与一第四输入词,该多个集合之一第三集合包含该第三输入词与一第三标签的搭配关系,该多个集合之一第四集合包含该第四输入词与一第四标签的搭配关系,该数据库更包含一标签序列,该标签序列包含依序排列的该第三标签与该第四标签。
6.如权利要求1所述的自然语言处理方法,其特征在于,其中该多个主体词数据结构之另一包含一专有名词,该专有名词依序包含该多个输入字之中的一第三输入词、一第四输入词与一第五输入词,该多个集合之一第三集合包含该第三输入词与一第三标签的搭配关系,该多个集合之一第四集合包含该第四输入词与一第四标签的搭配关系,该多个集合之一第五集合包含该第五输入词与一第五标签的搭配关系,该数据库更包含一第一标签序列与一第二标签序列,该第一标签序列包含依序排列的该第三标签与该第二标签序列,该第二标签序列包含依序排列的该第四标签与该第五标签。
7.如权利要求1所述的自然语言处理方法,其特征在于,其中该多个主体词数据结构之另一包含一专有名词,该专有名词依序包含该多个输入字之中的一第三输入词、一第四输入词与一第五输入词,该多个集合之一第三集合包含该第三输入词与一第三标签的搭配关系,该多个集合之一第五集合包含该第五输入词与一第五标签的搭配关系,该数据库更包含一第一标签序列,该第一标签序列包含依序排列的该第三标签、一第四标签与该第五标签,其中该第四输入词不在该多个集合当中的任何一个搭配关系中。
8.如权利要求1所述的自然语言处理方法,其特征在于,其中该多个集合之一更包含一词、与该词搭配的一或多个搭配词、以及下列集合属性的其中之一或其任意组合:
记载该词之词性的集合属性;
记载该词表示语言的集合属性;以及
记载该词属于主体论之阶层的集合属性。
9.如权利要求1所述的自然语言处理方法,其特征在于,其中该多个集合之一的搭配关系更包含下列搭配属性的其中之一或其任意组合:
记载该搭配关系中的一词与该搭配词的先后次序的搭配属性;
记载该词与该搭配词是否必须紧邻的搭配属性;
记载该词与该搭配词的词界的搭配属性;
记载该搭配词表示语言的搭配属性;
记载该搭配词是否为标签的搭配属性;
记载该搭配词属于主体论之阶层的搭配属性;以及
记载该搭配词之词性的搭配属性。
10.如权利要求1所述的自然语言处理方法,其特征在于,更包含:
寻找该一或多个主体词数据结构当中的一主体动词数据结构;
当找到该主体动词数据结构时,根据该主体动词数据结构的动词框架,形成树状结构的一语意结构;以及
当找不到该主体动词数据结构时,根据该一或多个主体数据结构形成森林型态的该语意结构,其中该语意结构包含所有的该一或多个主体词数据结构。
11.如权利要求1所述的自然语言处理方法,其特征在于,其中该多个输入字当中的至少一个输入词以第一语言来表示,该多个输入字当中的另一个输入词以第二语言来表示。
12.如权利要求10所述的自然语言处理方法,其特征在于,更包含:
将该语意结构内的每一个以第一语言表示的输入词,翻译成以第二语言表示的该输入词;以及
根据具有以第二语言表示的该多个输入字的该多个集合中的多个搭配关系,将该语意结构内的所有的该多个输入字排列组成以第二语言表示的一序列。
13.如权利要求12所述的自然语言处理方法,其特征在于,其中该多个集合之一包含该第一语言表示的该输入词与该第二语言表示的该输入词的搭配关系,该翻译步骤系根据该第一语言表示的该输入词与该第二语言表示的该输入词的搭配关系来进行。
14.如权利要求1所述的自然语言处理方法,其特征在于,其中该多个集合之另一包含该多个输入字之中的该第一输入词与一第三输入词的搭配关系,该第一输入词与该第三输入词的该搭配关系包含一搭配属性,用于记载在训练语料中该第一输入词与该第三输入词出现的第二强度,该自然语言处理方法更包含:
判断该强度与该第二强度的何者较大;
当该强度较大时,将该第一输入词与该第二输入词形成该一或多个主体词数据结构之一;以及
当该第二强度较大时,将该第一输入词与该第三输入词形成该一或多个主体词数据结构之一。
15.如权利要求14所述的自然语言处理方法,其特征在于,更包含:当该强度较大时,形成另一个该主体词数据结构,上述的另一个该主体词数据结构包含该第三输入词。
16.如权利要求1所述的自然语言处理方法,其特征在于,其中该多个输入字包含多个音节,该第一输入词包含该多个音节所组成的一或多个字。
17.如权利要求10所述的自然语言处理方法,其特征在于,更包含:
判断该语意结构是否包含动词框架;
当该语意结构包含动词框架时,根据该动词框架所对应的动词,找出对应的一指令;以及
执行该指令。
18.如权利要求17所述的自然语言处理方法,其特征在于,更包含:在执行该指令之前,根据该动词框架,在该语意结构中找出该指令的一或多个参数。
19.如权利要求17所述的自然语言处理方法,其特征在于,更包含:
接收该指令执行之后的响应消息;
将该响应消息组成一响应消息的语意结构;以及
将该响应消息的语意结构内的所有的输入词排列组成一序列。
20.一种用于自然语言处理的计算装置,其特征在于,用于执行多个指令,以实现权利要求1至19其中之一所述的该自然语言处理方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962937961P | 2019-11-20 | 2019-11-20 | |
USUS62/937,961 | 2019-11-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112825111A true CN112825111A (zh) | 2021-05-21 |
Family
ID=75907821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011282856.4A Pending CN112825111A (zh) | 2019-11-20 | 2020-11-17 | 自然语言处理方法与其计算装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11568151B2 (zh) |
CN (1) | CN112825111A (zh) |
TW (1) | TWI735380B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7468398B2 (ja) * | 2021-02-17 | 2024-04-16 | トヨタ自動車株式会社 | 情報処理装置、プログラム及び情報処理方法 |
CN113609860B (zh) * | 2021-08-05 | 2023-09-19 | 湖南特能博世科技有限公司 | 文本切分方法、装置及计算机设备 |
TWI805008B (zh) * | 2021-10-04 | 2023-06-11 | 中華電信股份有限公司 | 客製化意圖評選系統、方法及電腦可讀媒介 |
TWI834293B (zh) * | 2022-09-15 | 2024-03-01 | 陳森淼 | 自然語言處理方法及其系統與應用 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1606004A (zh) * | 2003-10-06 | 2005-04-13 | 微软公司 | 从文本标识语义结构的方法和装置 |
US20110184718A1 (en) * | 2010-01-25 | 2011-07-28 | Chen Chung-Ching | Interlingua, Interlingua Engine, and Interlingua Machine Translation System |
US20150370778A1 (en) * | 2014-06-19 | 2015-12-24 | Nuance Communications, Inc. | Syntactic Parser Assisted Semantic Rule Inference |
CN105320644A (zh) * | 2015-09-23 | 2016-02-10 | 陕西中医药大学 | 一种基于规则的自动汉语句法分析方法 |
US20160147736A1 (en) * | 2014-11-26 | 2016-05-26 | Abbyy Infopoisk Llc | Creating ontologies by analyzing natural language texts |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7302383B2 (en) * | 2002-09-12 | 2007-11-27 | Luis Calixto Valles | Apparatus and methods for developing conversational applications |
US8364468B2 (en) * | 2006-09-27 | 2013-01-29 | Academia Sinica | Typing candidate generating method for enhancing typing efficiency |
US9645993B2 (en) * | 2006-10-10 | 2017-05-09 | Abbyy Infopoisk Llc | Method and system for semantic searching |
CN102117281B (zh) * | 2009-12-30 | 2013-05-08 | 北京亿维讯科技有限公司 | 一种构建领域本体的方法 |
WO2012170817A1 (en) * | 2011-06-10 | 2012-12-13 | Google Inc. | Augmenting statistical machine translation with linguistic knowledge |
US10810368B2 (en) * | 2012-07-10 | 2020-10-20 | Robert D. New | Method for parsing natural language text with constituent construction links |
US20140214401A1 (en) * | 2013-01-29 | 2014-07-31 | Tencent Technology (Shenzhen) Company Limited | Method and device for error correction model training and text error correction |
CN103207856B (zh) * | 2013-04-03 | 2015-10-28 | 同济大学 | 一种本体概念及层次关系生成方法 |
US9519634B2 (en) * | 2014-05-30 | 2016-12-13 | Educational Testing Service | Systems and methods for determining lexical associations among words in a corpus |
US20160283523A1 (en) * | 2015-03-24 | 2016-09-29 | International Business Machines Corporation | Schema generation using natural language processing |
US10509855B2 (en) * | 2016-03-02 | 2019-12-17 | International Business Machines Corporation | Dynamic facet tree generation |
US10133724B2 (en) * | 2016-08-22 | 2018-11-20 | International Business Machines Corporation | Syntactic classification of natural language sentences with respect to a targeted element |
WO2018126325A1 (en) * | 2017-01-06 | 2018-07-12 | The Toronto-Dominion Bank | Learning document embeddings with convolutional neural network architectures |
US10699077B2 (en) * | 2017-01-13 | 2020-06-30 | Oath Inc. | Scalable multilingual named-entity recognition |
US20180225372A1 (en) * | 2017-02-03 | 2018-08-09 | Accenture Global Solutions Limited | User classification based on multimodal information |
JP6815899B2 (ja) * | 2017-03-02 | 2021-01-20 | 東京都公立大学法人 | 出力文生成装置、出力文生成方法および出力文生成プログラム |
US10417269B2 (en) * | 2017-03-13 | 2019-09-17 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for verbatim-text mining |
US10216724B2 (en) * | 2017-04-07 | 2019-02-26 | Conduent Business Services, Llc | Performing semantic analyses of user-generated textual and voice content |
US10445429B2 (en) * | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10824962B2 (en) * | 2017-09-29 | 2020-11-03 | Oracle International Corporation | Utterance quality estimation |
US10474478B2 (en) * | 2017-10-27 | 2019-11-12 | Intuit Inc. | Methods, systems, and computer program product for implementing software applications with dynamic conditions and dynamic actions |
CN107861951A (zh) * | 2017-11-17 | 2018-03-30 | 康成投资(中国)有限公司 | 智能客服中的会话主题识别方法 |
US11023461B2 (en) * | 2018-01-19 | 2021-06-01 | Servicenow, Inc. | Query translation |
US11269929B2 (en) * | 2018-05-04 | 2022-03-08 | International Business Machines Corporation | Combining semantic relationship information with entities and non-entities for predictive analytics in a cognitive system |
CN111914533B (zh) * | 2019-05-07 | 2024-10-18 | 广东小天才科技有限公司 | 一种解析英语长句的方法及系统 |
-
2020
- 2020-11-17 CN CN202011282856.4A patent/CN112825111A/zh active Pending
- 2020-11-17 US US17/099,867 patent/US11568151B2/en active Active
- 2020-11-17 TW TW109140262A patent/TWI735380B/zh active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1606004A (zh) * | 2003-10-06 | 2005-04-13 | 微软公司 | 从文本标识语义结构的方法和装置 |
US20110184718A1 (en) * | 2010-01-25 | 2011-07-28 | Chen Chung-Ching | Interlingua, Interlingua Engine, and Interlingua Machine Translation System |
US20150370778A1 (en) * | 2014-06-19 | 2015-12-24 | Nuance Communications, Inc. | Syntactic Parser Assisted Semantic Rule Inference |
US20160147736A1 (en) * | 2014-11-26 | 2016-05-26 | Abbyy Infopoisk Llc | Creating ontologies by analyzing natural language texts |
CN105320644A (zh) * | 2015-09-23 | 2016-02-10 | 陕西中医药大学 | 一种基于规则的自动汉语句法分析方法 |
Also Published As
Publication number | Publication date |
---|---|
TWI735380B (zh) | 2021-08-01 |
US11568151B2 (en) | 2023-01-31 |
TW202121230A (zh) | 2021-06-01 |
US20210150148A1 (en) | 2021-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11250842B2 (en) | Multi-dimensional parsing method and system for natural language processing | |
US11132504B1 (en) | Framework for understanding complex natural language queries in a dialog context | |
Ojokoh et al. | A review of question answering systems | |
US10496749B2 (en) | Unified semantics-focused language processing and zero base knowledge building system | |
US20190163691A1 (en) | Intent Based Dynamic Generation of Personalized Content from Dynamic Sources | |
US9824083B2 (en) | System for natural language understanding | |
KR101130444B1 (ko) | 기계번역기법을 이용한 유사문장 식별 시스템 | |
KR101732342B1 (ko) | 신뢰 질의 시스템 및 방법 | |
TWI735380B (zh) | 自然語言處理方法與其計算裝置 | |
RU2509350C2 (ru) | Способ семантической обработки естественного языка с использованием графического языка-посредника | |
US20120253793A1 (en) | System for natural language understanding | |
CN108304375A (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
JP2013502643A (ja) | 構造化データ翻訳装置、システム及び方法 | |
Mihalcea et al. | Open mind word expert: Creating large annotated data collections with web users’ help | |
US20170011119A1 (en) | System for Natural Language Understanding | |
Smith et al. | LILLIE: Information extraction and database integration using linguistics and learning-based algorithms | |
CN110020436A (zh) | 一种本体和句法依存结合的微博情感分析法 | |
EP2184685A1 (en) | Method for semantic processing of natural language using graphical interlingua | |
US20220343087A1 (en) | Matching service requester with service providers | |
KR102632539B1 (ko) | 자연어 구조 정보를 이용한 임상정보 검색 시스템 및 방법 | |
US12026482B2 (en) | Methods, systems, and computer readable media for creating and using minimum dictionary language (MDL) to access data in closed-domain data sets | |
Lim et al. | Low cost construction of a multilingual lexicon from bilingual lists | |
KR20190086395A (ko) | 도식화된 질의 구성 방식을 이용한 전문가시스템에서의 다차원 지식 검색 방법 및 시스템 | |
CN116991969B (zh) | 可配置语法关系的检索方法、系统、电子设备及存储介质 | |
CN112784612B (zh) | 基于迭代修改的同步机器翻译的方法、装置、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |