CN110955748B - 语意处理方法、电子装置以及非暂态电脑可读取记录媒体 - Google Patents

语意处理方法、电子装置以及非暂态电脑可读取记录媒体 Download PDF

Info

Publication number
CN110955748B
CN110955748B CN201811122087.4A CN201811122087A CN110955748B CN 110955748 B CN110955748 B CN 110955748B CN 201811122087 A CN201811122087 A CN 201811122087A CN 110955748 B CN110955748 B CN 110955748B
Authority
CN
China
Prior art keywords
word
speech
words
word segmentation
blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811122087.4A
Other languages
English (en)
Other versions
CN110955748A (zh
Inventor
庞台铭
罗国峯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asustek Computer Inc
Original Assignee
Asustek Computer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asustek Computer Inc filed Critical Asustek Computer Inc
Priority to CN201811122087.4A priority Critical patent/CN110955748B/zh
Publication of CN110955748A publication Critical patent/CN110955748A/zh
Application granted granted Critical
Publication of CN110955748B publication Critical patent/CN110955748B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种语意处理方法、电子装置以及非暂态电脑可读取记录媒体,语意处理方法包含以下步骤:首先根据词库数据库来对输入字串解析得到多个字词。接着,以这些字词来建立断词表格,其中断词表格包含多个表格区块,每个表格区块包含一个字词或相邻的多个字词。参考断词表格的各个阶层的各表格区块的一个字词在词库数据库中对应的一个或多个词性,或参考断词表格的各个阶层的各表格区块的多个字词于词库数据库中对应的一个或多个词性序列。根据这些词性或词性序列,来对各阶层的每一个表格区块执行文法规则。根据断词表格中符合文法规则的表格区块来输出剖析树。本发明的语意处理方法可产生正确的剖析树,增加剖析解果的正确性。

Description

语意处理方法、电子装置以及非暂态电脑可读取记录媒体
技术领域
本发明是有关于语言的处理方法,特别是一种语意处理方法、电子装置以及非暂态电脑可读取记录媒体。
背景技术
在自然语言的技术范畴,运用上结合了语言学与人工智能。在一段输入的句子或文章当中,首先必须以语言学对句子进行解构,从句子当中分析出更小的单位,也就是字词,对各个字词标注所属的语意角色。一般而言,处理系统是以使用统计数据库来标注语意角色,因此训练完善的语料数据库相形重要。然而,字词往往不只具备一种词性,若以统计数值来决定字词的词性,例如以某字词最常出现的词性来标注,对于出现机率相对较低的词性的字词,则会使得句子的解析发生错误,而输出错误的解析结果。
发明内容
本发明的一个目的在于提供一种语意处理方法,其可产生正确的剖析树,并增加剖析解果的正确性。
根据本发明的一实施例,揭示一种语意处理方法。此方法包含下述步骤:根据词库数据库对输入字串解析为多个字词。接着,建立断词表格,其中断词表格包含多个表格区块,并且这些表格区块分别位于断词表格的多个阶层,这些阶层各自的表格区块逐层递减,各个表格区块包含这些字词的其中一个或者这些字词中相邻的多个字词。接着,参考断词表格的各个阶层的各表格区块的一个字词在词库数据库对应的一个或多个词性,或参考断词表格的各个阶层的各表格区块的多个字词在词库数据库对应的一个或多个词性序列。接着,根据断词表格的表格区块对应的词性或词性序列,对各阶层的每一个表格区块执行文法规则。以及,根据断词表格中符合文法规则的等表格区块,输出剖析树。此剖析树包含所述多个字词在输入字串中的词意以及输入字串的句型行为。
根据本发明的另一实施例,揭示一种具备语意处理方法的电子装置。电子装置包含储存媒体、输入输出介面以及处理器。储存媒体储存至少一个程序指令以及词库数据库。输入输出介面用以取得输入字串。处理器耦接于储存媒体以及输入输出介面,用以载入并执行储存于储存媒体中的至少一个程序指令。处理器是用以根据词库数据库对输入字串解析为多个字词。接着,建立断词表格,其中断词表格包含多个表格区块,并且这些表格区块分别位于断词表格的多个阶层,这些阶层各自的表格区块逐层递减,各个表格区块包含这些字词的其中一个或者这些字词中相邻的多个字词。接着,参考断词表格的各个阶层的各表格区块的一个字词在词库数据库对应的一个或多个词性,或参考断词表格的各个阶层的各表格区块的多个字词于词库数据库对应的一个或多个词性序列。接着,根据断词表格的表格区块对应的词性或词性序列,对各阶层的每一个表格区块执行文法规则。以及,根据断词表格中符合文法规则的等表格区块,输出剖析树。此剖析树包含所述多个字词在输入字串中的词意以及输入字串的句型行为。
根据本发明的又另一实施例,揭示一种非暂态电脑可读取记录媒体,其记录至少一个程序指令,使所述多个至少一个程序指令在载入至电子装置后,执行下列步骤:根据词库数据库对输入字串解析为多个字词。接着,建立断词表格,其中断词表格包含多个表格区块,并且这些表格区块分别位于断词表格的多个阶层,这些阶层各自的表格区块逐层递减,各个表格区块包含这些字词的其中一个或者这些字词中相邻的多个字词。接着,参考断词表格的各个阶层的各表格区块的一个字词在词库数据库对应的一个或多个词性,或参考断词表格的各个阶层的各表格区块的多个字词在词库数据库对应的一个或多个词性序列。接着,根据断词表格的表格区块对应的词性或词性序列,对各阶层的每一个表格区块执行文法规则。以及,根据断词表格中符合文法规则的等表格区块,输出剖析树。此剖析树包含所述多个字词在输入字串中的词意以及输入字串的句型行为。
与现有技术相比,本发明的语意处理方法、电子装置以及非暂态电脑可读取记录媒体,能够产生正确的剖析树,并增加剖析解果的正确性。
附图说明
以下详细描述结合随附附图阅读时,将有利于较佳地理解本发明的各个方面。应注意,根据说明上实务的需求,附图中各特征并不一定按比例绘制。实际上,出于论述清晰的目的,可能任意增加或减小各特征的尺寸。
图1是根据本发明一些实施例中的一种语意处理方法的流程示意图。
图2A是根据本发明一些实施例中断词表格的示意图。
图2B是根据本发明另一些实施例中断词表格的示意图。
图3A是根据本发明一些实施例中断词表格的示意图。
图3B是根据本发明另一些实施例中断词表格的示意图。
图4是根据本发明一些实施例中断词表格的示意图。
图5是根据本发明一些实施例中执行文法规则的示意图。
图6是根据本发明一些实施例中执行文法规则的示意图。
图7A至图7B是根据本发明一些实施例中产生剖析结果的示意图。
图8是根据本发明的一实施例中一种电子装置的功能方块图。
具体实施方式
以下揭示内容提供许多不同实施例或实例,以便实施本发明的不同特征。下文描述元件及排列的特定实例以简化本发明。当然,上述这些实例仅为示例性且并不欲为限制性。举例而言,以下描述中在第二特征上方或第二特征上形成第一特征可包括以直接接触形成第一特征及第二特征的实施例,且亦可包括可在第一特征与第二特征之间形成额外特征使得第一特征及特征可不处于直接接触的实施例。另外,本发明可在各实例中重复元件符号及/或字母。此重复是出于简明性及清晰的目的,且本身并不指示所论述的各实施例及/或配置之间的关系。
进一步地,为了便于描述,本文可使用空间相对性术语(诸如“之下”、“下方”、“较低”、“上方”、“较高”及类似者)来描述诸图中所图示一个元件或特征与另一个元件(或多个元件)或特征(或多个特征)的关系。除了诸图所描绘的定向外,空间相对性术语意欲包含使用或操作中装置的不同定向。设备可经其他方式定向(旋转90度或处于其他定向上)且因此可同样解读本文所使用的空间相对性描述词。
一般而言,语意处理方法需要利用剖析器来分析各字词在句子中所代表的意义与角色。采用统计法训练模型的剖析器,普遍做法是从树库(treebank)的结构树数据,训练得到一个模型,再以这一模型去剖析新的句子,因此若是非常复杂的句子或是较少出现在树库中的结构树,则会剖析失败。另一方面,当失败后,也不易针对剖析错误的句子进行修正,因为此方式的剖析器必须扩增树库或是修改演算法,再重新训练一个新模型进行测试,因此所花费的工程十分浩大且遇到的错误未必能修正成功。
采用文法规则为判断标准的剖析器,一般在文法规则上的设计都相较松散,目的是为了维持句子能剖析通过(符合至少一个文法规则)的机率。由于文法规则的认定较宽松,所以鉴别句子的歧异结构的效果并不好,例如同一个句子可能同时通过两种以上的文法规则,难以确认最适合的文法结构。
为了解决同时通过多个文法规则的问题,本发明的语意处理方法100为特征导向的剖析器,解句法歧异的能力比一般剖析器的效果更佳。
此外,一般剖析器接收到的输入是使用者输入的句子,进行断词与词性判断后,取最高分的组合。然而,最高分的断词结果未必是正确的组合,正确的组合可能是位于第二或第三高分。此外,词性判断的标记通常是根据训练语料得到的模型来进行标记,若一个词在语料库出现的大多是动词,模型在标记这个词时,较高机率会将其标记成动词,但这个词在部分语境下,可能是作为形容词或其他词性使用,却因为这个词的词性的机率分布而被标为动词,因此大多数的剖析器会常遇到词性判断错误的状况,这将会直接导致其剖析失败,若是采用错误的标记结果进行剖析,则必然会让句子剖析失败。
为了解决所述问题,本发明的语意处理方法100可以一次接受多组断词结果进入剖析器且断词结果可以不必带有单一固定的词性判断标记,剖析器会将一个词其存在于词库数据库所有的词性判断标记都进行考虑,最后再以文法的限制来筛选出正确的词性标记。
图1是根据本发明一些实施例中的一种语意处理方法的流程示意图。本发明的语意处理方法100用以将一段文字或文章解析为上下文语意通顺且符合语言的文法规则的断句组合。在一些实施例中,由处理元件读取储存于记录单元中的程序指令来执行本发明的语意处理方法100。
请参阅图1,首先执行步骤S101,读取一段输入字串。输入的字串可以中文或英文。以中文为范例,输入字串例如是“你要不要跟我去福利社”。以英文为范例,输入字串例如是“What shall we do supposing it rains”。在另一些范例,输入字串可以是一篇短/中/长篇文章,或是经由语音辨识转换为文字叙述的一段文字。
在步骤S103,根据词库数据库来对输入的字串进行解析,而获得多个字词以及各字词其在词库数据库内所有收集的词意。在进行解析时,会先判断输入字串所属的语系,而根据语系来选择对应的词库数据库。举例来说,输入字串为“张课员被免职了”的情况,词库数据库记录有单字集合{张、课、员、被、免、职、了},因此输入字串经过解析之后可以产生“张/课/员/被/免/职/了”的多个字词(‘/’表示分开的字词)。或者,在另一种情况,词库数据库记录有词组集合{课员、免职},因此输入字串经过解析之后可以产生“张/课员/被/免职/了”的多个字词。此用于解析输入字串的数据库包含但不限于以统计或词汇使用习惯而建立的词汇数据库。
值得注意的是,本发明所述的“字词”,可以是一个字或单字(word),或者两个以上的字所组成的词组(phrase)。因此,一段输入字串可以被解析为一种或一种以上的字词组合。以所述的例子来说明,所解析的结果可为“张/课/员/被/免/职/了”此一种字词组合。或者,解析的结果可为“张/课/员/被/免/职/了”和“张/课员/被/免职/了”这两种字词组合。本发明可根据实际情况来保留后续步骤要使用的字词组合。若选择了两种或以上的字词组合,各字词组合都会执行后续的方法步骤。
接着执行步骤S105,根据所获得的多个字词来建立断词表格。断词表格包含多个表格区块,并且这些表格分别位于断词表格的多个阶层。各阶层具有表格区块,而每个阶层的表格区块的数目会随着阶层的提升而递减。此断词表格是运用CYK(Cocke-Younger-Kasami)表格,而使用本发明的断词逻辑与文法解析而实现语意处理方法。为具体说明断词表格的内容,以下配合图2A作详细说明。
图2A是根据本发明一些实施例中断词表格的示意图。如图2A所示,断词表格201包含阶层211、阶层213与其他更高阶层,此图例中的断词表格201包含七个阶层。阶层211包含七个表格区块221~227。比阶层211高一阶的阶层213包含六个表格区块。以此类推,越高阶层所包含的表格区块数目越少(在第七个阶层只有一个表格区块)。
继续步骤S105,每一个表格区块包含输入字串中的其中一个字词或是多个相邻的字词。在每一个表格区块包含一个字词的情况,例如“张/课/员/被/免/职/了”,则最低的阶层211的表格区块221~227分别填入字词,即表格区块221的对应字词为“张”、表格区块222的对应字词为“课”、表格区块223的对应字词为“员”、表格区块224的对应字词为“被”、表格区块225的对应字词为“免”、表格区块226的对应字词为“职”以及表格区块227的对应字词为“了”,如图2A所示。
为具体说明断词表格的内容,以下配合图2B作详细说明。图2B是根据本发明另一些实施例中断词表格的示意图。断词表格203包含阶层231、阶层233与其他更高阶层,此图例中的断词表格203包含五个阶层。阶层231包含五个表格区块241~245。比阶层231高一阶的阶层233包含四个表格区块。以此类推,越高阶层所包含的表格区块数目越少(在第五个阶层只有一个表格区块)。在每一个表格区块包含多个相邻字词的情况,例如“张/课员/被/免职/了”,则如图2B所示,最低的阶层231的表格区块241~245分别填入字词,即表格区块241的对应字词为“张”、表格区块242的对应字词为“课员”、表格区块243的对应字词为“被”、表格区块244的对应字词为“免职”以及表格区块245的对应字词为“了”。
换句话说,通过对输入字串经过解析而获得可能的多个字词,在表格区块存在多个相邻字词的情况,可以事先减少字词的数目,在建立断词表格的时候可事先排除不必要的字词,而得以减少断词表格的大小。如此一来,可事先排除不考虑的字词组合,而进一步地使得断词表格在后续进行文法规则剖析(parsing)的时候,可避免不必要的运算成本。以图2A与图2B为例,图2A的断词表格需要7*7的大小,图2B的断词表格仅需要5*5的大小,因此图2B在较高阶层的字词组合的文法规则剖析的时候,可以较图2A节省运算成本与断词表格的储存空间。
请继续参阅图1,在此阶段中并不会对断词表格中的字词来设定固定的词性,而是会考虑各字词在不同词意时的词性,例如某字词在第一种词意时是名词,其机率为80%,而上述字词在第二种词意时是动词,其机率为15%,第三种词意是形容词,其机率为5%。换言之,即使上述字词是名词的机率是80%高于动词的15%,仍会考虑断词表格中各上述字词的所有词性(如名词、动词、形容词)以及词意。接着执行步骤S107,参考(refer)断词表格的多个阶层中的表格区块的其中一个字词于词库数据库中的一个或多个词性,或者参考这些表格区块的多个字词于词库数据库中的一个或多个词性序列。其中,这些字词具有一个或以上的词性,且各词性有对应的使用机率。
详细来说,在决定出断词表格的大小并产生各表格区块的对应字词,进一步地参考各字词的一个或多个词性,并将各字词的一个或多个词性对应地记载于表格区块中。对于图1的步骤流程,以下配合图3A说明参考在断词表格的表格区块所对应的词性。图3A是根据本发明一些实施例中断词表格的示意图。请参阅图3A,输入字串为“我想念书”。在经过前述图1的步骤S103,获得断词表格301。断词表格301包含阶层311。阶层311包含多个字词321~324。本范例中,断词表格301为每一个表格区块包含一个字词的情况,即表格区块321的对应字词为“我”、表格区块322的对应字词为“想”、表格区块323的对应字词为“念”以及表格区块324的对应字词为“书”。以及,判断表格区块321~324的字词所对应的词性(part ofspeech,POS)。如图3A所示,表格区块321的对应字词的词性为名词(pos=n)(其使用机率例如是100%)、表格区块322的对应字词的词性为动词(pos=v)(其使用机率例如是70%)、表格区块323的对应字词的词性为动词(pos=v)(其使用机率例如是75%)以及表格区块324的对应字词的词性为名词(pos=n)(其使用机率例如是80%)。此外,每一个表格区块所对应字词可能具有一个以上的词性,例如表格区块324的对应字词“书”,除了作为名词以外,也有可能作为动词的词性(其使用机率例如是20%),用来描述书写的动作,在此例中,表格区块324所读取的可能词性就有名词及动词等两种词性。也就是说,在此阶段的断词表格会参考字词的所有词性判断标记,不针对各个字词标记出对应的词性(例如不因某词性的使用机率高,就对字词决定其词性标记),而是在后续执行文法剖析时,再以文法限制来筛选出正确的词性标记。欲说明的是,本发明中关于在断词表格中对应的词性是指断词之后剖析器会参考的字词的所有词性。如此一来,剖析器可以减少产生错误的文法,而输出更正确的语意句子。并且,也可以针对某些不常用的字词词性但在某些情况是正确文法,若直接以最常用的字词词性作为词性标记来进行文法剖析,会产生错误的文法结果,本发明提供的方法可以克服此问题,即使是同一字词而是不常被使用的词性,也仍然会被纳入参考。
对于图1的步骤流程,以下配合图3B说明参考在断词表格的表格区块所对应的词性的实施例。图3B是根据本发明另一些实施例中断词表格的示意图。请参阅图3B,输入字串为“我想念书”。语意处理方法100会根据实际情况来保留字词组合。如图3B所示,断词表格303包含阶层313与阶层315。阶层313包含表格区块331~334,阶层315包含表格区块342~343。表格区块331的对应字词为“我”、表格区块332的对应字词为“想”、表格区块334的对应字词为“书”以及表格区块333的对应字词则保留空白。原因是,语意处理方法100在解析与“念”有关的词组,即“想念”与“念书”时,判断此二词组都属于可能使用的词组。因此,将此二词组同时保留,而记录高于阶层313的阶层315中。如图3B所示,阶层315的表格区块342的对应字词为“想念”以及表格区块343的对应字词为“念书”。同时,表格区块331的对应字词的词性为名词(pos=n)、表格区块332的对应字词的词性为动词(pos=v)、表格区块334的对应字词的词性为名词(pos=n)以及动词(pos=v),以及表格区块333不具有对应的字词。如此,同时保留两个或以上的可能词组,在后续剖析文法的时候都让这些常用词组进入剖析器,而相对于一开始就决定好一个断词结果,可避免后续产生错误的文法解析。
图4是根据本发明一些实施例中断词表格的示意图。在图4中揭示输入字串“Heleft for good”的断词与词性。请参阅图4,断词表格401包含阶层411。输入字串的各个单字“He”、“left”、“for”、“good”,对于“for good”是可被使用的片语,若没有考虑此片语,很可能在文法剖析的时候产生错误的结果。如图4所示,表格区块421的对应字词为“He”、表格区块422的对应字词为“left”、表格区块423的对应字词为“for”,以及表格区块424的对应字词为“good”。为了使片语“for good”也能进入文法剖析,因此也在较阶层411高的阶层的表格区块425中填入字词“for good”。此外,每一个表格区块所对应字词可能具有一个以上的词性,例如表格区块424的对应字词“good”,除了作为名词以外,也有可能作为形容词的词性,用来描述“好的、有益的”,在此例中,表格区块424所读取的可能词性就有名词及形容词等两种词性。也就是说,如图3A、图3B以及图4所示,语意处理方法100所建立的断词表格301、断词表格303以及断词表格401的表格区块中的字词可能会有多种词意,各上述种词意会对应地具有不同的词性,因此表格区块中的字词不局限于一个词性,只要是被断词出来的字词的所有可能的词性都会被列入,使得在后续执行文法规则的文法剖析的时候可以考虑到所有可能的词意及词性。
请继续参阅图1,接着执行步骤S109,根据断词表格的表格区块对应的字词、词性或词性序列,对各阶层的每一个表格区块执行文法规则。以下将说明本发明的文法规则在语意处理方法的运作。在一些实施例中,本发明对于断词表格的语意处理方法,是于断词表格中由左而右、由下至上依序对表格区块的对应字词与词性进行剖析。
在一些实施例中,语意处理方法的文法规则包含将输入字串解析为多个字词,并判断输入字串中具有至少一个预设词组时,将预设词组放置于断词表格的表格区块的其中一个,其中预设词组包含两个以上的字词。
图5是根据本发明一些实施例中执行文法规则的示意图。本发明的文法规则考虑了字词与字词之间的关系以及特征规则,对于可以成组的多个字词,在执行文法规则剖析的时候,会将这些多个字词组合成为一个新的字词,并以此新的字词取代原本未成组的多个字词。在进入文法剖析时,则以此新的字词执行句子的语法解析。请参阅图5,此范例的输入字串为“他是不是老师”。如图1所示的步骤S103,根据词库数据库对“他是不是老师”此输入字串解析后获得五个字词,即“他”、“是”、“不”、“是”、“老师”。在此例中,字词的词组“是不是”是预设词组。因此,如图5所示的断词表格501,在阶层511的表格区块(0,0)填入“他”、表格区块(0,1)填入“是”表格区块(0,2)填入“不”、表格区块(0,3)填入“是”、表格区块(0,4)填入“老师”。接着,判断第一阶层511的相邻字词的组合是否存在预设词组,第一阶层511的两个相邻字词的组合,即词组组合“是不”与“不是”。如本范例,经判断“是不”与“不是”不含有预设词组“是不是”,则在下一个阶层513中分别填入前一个阶层511的对应表格区块与相邻表格区块的字词的组合。如图5所示,阶层513的表格区块(1,1)考虑前一个阶层511的对应表格区块(0,1)与其相邻的表格区块(0,2)的字词组合,因此在表格区块(1,1)填入字词词组“是不”。以及,阶层513的表格区块(1,2)考虑前一个阶层511的对应表格区块(0,2)与其相邻的表格区块(0,3)的字词组合,因此在表格区块(1,2)填入字词词组“不是”。
接续前面说明,判断阶层513的相邻字词的组合是否存在预设词组,即词组组合“是不是”。此时,因“是不是”符合预设词组,因此将词组组合“是不是”填入阶层515的表格区块(2,1)。因为找到“是不是”此预设词组,代表在所有的可能字词“是”、“不”、“是”、“是不”、“不是”、“是不是”,是希望以“是不是”作为输入字串“他是不是老师”的一个断词。因此,断词表格501不再需要考虑“是不是”以外的字词,而进一步地将断词表格501中的一些字词或词组清除,即删除表格区块(0,1)、表格区块(0,2)、表格区块(0,3)、表格区块(1,1)以及表格区块(1,2)的对应字词“是”、“不”、“是”、“是不”、“不是”。在后续进行文法规则判断的时候,其他的表格区块就不再考虑与这些字词组合,例如不再考虑组合“他是不”、“不是老师”等。
如此,本发明可以即时地对断词表格的每个内容的词组组合进行调整,删除不必要的词组组合,借以减少未来在运算剖析树的运算量。
在一些实施例中,语意处理方法的文法规则包含判断是否存在P节点(Pnode),以在执行文法规则时若读取到P节点,则暂时通过当前的文法规则。以及,在前述读取到P节点而暂时通过当前的文法规则后,若在另一文法规则中读取到P节点的节点词,则进一步地回来重新读取先前暂时通过的文法规则,判断上述节点词是否符合先前暂时通过的文法规则,详细说明如下。
图6是根据本发明一些实施例中执行文法规则的示意图。请参阅图6,断词表格601包含阶层611与阶层613。此范例中,输入字串为“She is a beautiful girl”。在阶层611的表格区块(0,0)的对应字词“She”、表格区块(0,1)的对应字词“is”、表格区块(0,2)的对应字词“a”、表格区块(0,3)的对应字词“beautiful”以及表格区块(0,4)的对应字词“girl”。P节点可以为程序码中的数据结构,以下将说明本发明如何运用P节点来判断哪些是符合文法规则的字词。
如图6所示,在表格区块(0,3)的对应字词是词性为形容词的“beautiful”。在此区块中执行文法规则:“Adjpc(Pos.Pnode==n?Role.Pnode=MOD)->Adjp;”。在此文法规则中读取到P节点的词性是否为名词的判断条件,若P节点词组的词性为n,则会指派特征Role=MOD至P节点词组中,此处的“?”为条件运算子(Conditional Operator),即左侧条件成立后,执行右侧功能,然而,在此时并不知道P节点的字词与词性为何,无法判断文法规则是否符合,因此暂时通过此文法规则并保留此P节点的判断条件。接着,表格区块(0,4)对应的字词是词性为名词的“girl”。到了表格区块(1,3),在此区块中执行文法规则:“NHxa(Head=NHxa,Pnode=NHxa,Cnode=NHxa)->Adjpc+NHxa;”。在此文法规则中读取到P节点的节点词(NHxa),此时可以回到先前暂时通过的文法规则而重新判断文法规则是否成立,即“Adjpc(Pos.NHxa==n?Role.Pnode=MOD)->Adjp;”。由于文法规则成立,而可完成Role.Pnode=MOD的语意角色的指派。换言之,P节点用于判断某个未知的字词,而在当下执行文法判断时先不予处理,留至未来读取到P节点的相关字词时,才回到先前的文法规则进行判断与相对应的数据指派。
如此一来,本发明可解决无法马上判断语意表达但却必须当下就执行文法剖析的问题,通过P节点的配置,保留了条件的判断,允许在更高阶层或更后面的表格区块才指派P节点的节点词,让上层的文法规则来重新判断P节点与其他字词的文法关系,使得文法剖析可达成提高精准度的功效。除此之外,本发明可通过P节点在文法剖析阶段直接指派语意角色,提升建置剖析树的效率。
在一些实施例中,语意处理方法的文法规则包含判断断词表格的各阶层的表格区块的左边表格区块对应的词性是否符合设定词性。举例来说,文法规则“Pos.LWord[n]==p”用来判断文法所组成的子树的左边的第n个字词,其词性特征(POS)是否为p。另一范例中,文法规则“Ltokens==V+N”属于一种未来的比较,用来判断此文法结果未来将与其他表格区块的结果进行组合时,必须左方的组合为V+N。例如在Qword的文法结果安插了Ltokens==V+N作为未来判断,当有一条文法“S->V+N+Qword”,这时会进行Qword内Ltokens的比较,成立后才能组成S。
在一些实施例中,语意处理方法的文法规则包含考虑断词表格的一些被指定的表格区块的所有词性,并判断所有词性中是否存在符合或不符合的设定词性。举例来说,输入字串“你的头发和他一样好看”,并产生断词V1“一样”与断词V2“好看”。将此输入字串使用以下文法规则来判断:“V(head=V2,_Pos.V1!=adv)->V1(V_type==vh11)+V2(V_type==vh11);”,此时在判断式“_Pos.V1!=adv”中会考虑断词V1从词库数据库取出的所有词性(POS)是否包含副词(adv),并判断出断词V1的所有词性不包含副词时,可以通过判断条件。由于词汇“一样”于我们所维护的词库数据内,并没有副词的用法,因此输入字串“你的头发和他一样好看”可以通过文法规则的条件判断。如此,本发明提供可限制某一些断词的词性判断,提升在文法解析的弹性度。
在一些实施例中,语意处理方法的文法规则包含判断断词表格的各阶层的表格区块的右边表格区块对应的词性是否符合设定词性。举例来说,文法规则“Word.RWord[n]==好”用来判断文法所组成的子树的右边的第n个字词,其字词特征是否为“好”。另一范例中,文法规则“Rtokens==P+NP”属于一种未来比较,用来判断此文法结果未来将与其他表格区块的结果进行组合时,必须右方的组合为P+NP。
在一些实施例中,语意处理方法的文法规则包含判断表格区块所使用的字词组合在某个位置的表格区块所对应的词性,是否为所设定词性。举例来说,文法规则“Pos.Tokens[-1]==n”用来判断文法所组成的子树的最后一个字词的词性是否为名词。
在一些实施例中,语意处理方法的文法规则包含判断断词表格的表格区块对应的相邻字词的词性符合设定词性时,判断相邻字词为一个词组。设定词性可为字词的语意特征,例如抽象名词或实体名词。举例来说,考虑以下两个输入字串:He lost the interestin life.以及He shook his head in grief.此两个句子有同样的句子结构,但介系词“in”在此两个输入字串中会产生两种不同的意思。我们使用以下两个文法规则,
文法规则一:
“S(Head=VP,fltype.NP==abstract,POfeature.PP==abstract,edge.NP-PP=RANGE)->VP+NP+PP”。
文法规则二:
“S(Head=VP,fltype.NP==physical,POfeature.PP==abstract,edge.VP-PP=RANGE)->VP+NP+PP”。
文法规则一表示,若介系词的左边与右边都是抽象名词,则介系词会修饰左边的抽象名词。文法规则二表示,若介系词的左边是实体名词而右边是抽象名词,则介系词会与抽象名词组成词组而修饰动词。例如,前述的两个输入字串在经过文法规则一与文法规则二的剖析之后,输入字串“He lost the interest in life.”会通过文法规则一,而输入字串“He shook his head in grief.”会通过文法规则二。
再举例来说,考虑以下两个输入字串:I eat the pizza with fork.以及I eatthe pizza with pineapple.此两个句子有同样的句子结构,但介系词“with”在此两个输入字串中会产生两种不同的意思,即“with fork”以及“with pineapple”。前者指使用叉子来吃披萨,“with fork”用来修饰动词“eat”,后者则是指披萨上有凤梨,“with pineapple”用来修饰名词“pizza”。因此,在文法规则中加入设定词性来对相同句型结构的句子进行解析。我们使用以下两个文法规则:
文法规则三:
“S(Head=VP,type.NP==food,POfeature.PP==comestible,edge.NP-PP=RANGE)->VP+NP+PP”。
文法规则四:
“S(Head=VP,type.NP==food,POfeature.PP==instrument,edge.VP-PP=RANGE)->VP+NP+PP”。
文法规则三表示,若介系词右侧的名词的词意特征为器具类名词,则介系词会与右边名词组成词组来修饰动词;文法规则四表示,若介系词右侧的名词的词意特征为可食用食物类名词,则介系词会与右边名词组成词组来修饰左侧的名词。例如,前述的两个输入字串在经过文法规则三与文法规则四的剖析之后,输入字串“I eat the pizza withfork.”会通过文法规则三,而输入字串“I eat the pizza with pineapple.”会通过文法规则四。
如此,通过前述的多个文法规则范例来判断相邻字词的词性符合设定词性时,可决定词组的组成,也可对表格区块的多个字词来决定对应的词性序列,可解决在剖析输入字串的时候,对于一个字词有多个词意所产生的歧义(Ambiguity)的问题。
在一些实施例中,语意处理方法的文法规则包含判断在产生多个字词对应的多个词性序列时,可进一步筛选不适合的词性序列。举例来说,文法规则“SS(Word.Subj@S==not)->S”可判断表格区块的右边的子树S与后代子树Subj是否有“not”此词汇。若判断结果为是,则保留上述词性序列。如此,本发明在考虑多种词汇的词性的情况下,在后续产生多个可能的词性序列时,还可以进一步在产生剖析结果之前筛选掉不适合(例如不符合语言表述逻辑或人性化表达)的剖析树,借以减少未来在运算剖析树的运算量。
请继续参阅图1,接着在步骤S111中,根据断词表格中符合文法规则的表格区块来输出剖析树。举例来说,各个文法规则具有对应的权重值,对于符合文法规则的表格区块就对应地加总权重值。因此,在执行完所有文法规则后,可以得到至少一个剖析树,且各剖析树具有对应的权重值总和。语意处理方法100会选出最高的权重值总和,作为输出的剖析树并同时输出此最高分的剖析树的逻辑形式图(Logical Form Graph)。
图7A至图7B是根据本发明一些实施例中产生剖析结果(剖析树的逻辑形式图T1或剖析树的逻辑形式图T2)的示意图。
以下为输入字串“我喜欢安静的环境”作说明。经过语意处理方法所产生的剖析结果,包含输入字串的词意与输入字串的句型行为。如第7A图所示,逻辑形式图T1的节点N1表示句型行为,TELL则表示此句型行为属于直述句。在剖析的过程中会决定出节点的词意(例如“我”、“喜欢”等等)。而在节点与节点之间的连线则为语意角色(如content、main、goal_dob、mod、experiencer分别代表节点之间的语意角色)。举例来说,节点“喜欢”属于心灵感知(experiencer)的动词,因此在最后剖析完成后,会指派语意角色连线到“喜欢”的主词,也就是节点“我”。
以下以另一输入字串“他是你爸爸吗?”说明剖析树的词意与句型行为。如第7B图所示的逻辑形式图T2,节点N2表示句型行为,QUES_YN则表示此句型行为属于疑问句。相类似于第7A图的说明,在剖析的过程中会决定出节点的词意(例如“是”、“爸爸”等等),而在节点与节点之间的连线则为语意角色(如content、main、theme、predicate、ssoc_poss、ques_word分别代表节点之间的语意角色)。
请一并参阅图8,其是根据本发明的一实施例中一种电子装置800的功能方块图,电子装置800包含处理器810、储存媒体820以及输入输出介面830。处理器810耦接至储存媒体820以及输入输出介面830。处理器810配合程序指令(可以是软体或韧体)用以执行图1及所述实施例中的语意处理方法100。
使用者可以通过输入输出介面830将要处理的文字、语音、档案内容输入至电子装置800。当电子装置800产生对应输入句子的剖析树之后,电子装置800可以对使用者的输入做出正确的反应或是后续处理,例如电子装置800可以理解使用者的语意并自动产生回复对话内容,或者电子装置800可以理解使用者的输入指令,帮忙使用者拨打电话、设定闹钟、回复简讯、买卖商品、语言翻译等应用。
程序指令可被储存于储存媒体820中。储存媒体820可为随机存取记忆体(RandomAccess Memory,RAM)、唯独记忆体(Read-Only Memory,ROM)、固态硬碟(Solid StateDrive,SSD)或其他电脑可读取记录媒体的类似元件。处理器810可为中央处理器(CentralProcessing Unit,CPU)、系统单晶片(System on Chip,SoC)、应用处理器、数字信号处理器(digital signal processor)或特定功能的处理晶片或控制器,本发明的语意处理方法100可以任何种类的程序语言来实现。在一实施例中,本发明提出一种非暂态电脑可读取记录媒体,非暂态电脑可读取记录媒体记录所述程序指令,所述程序指令在载入电子装置800后可以用来执行先前实施例中的语意处理方法100。
综上所述,有别于一般的电子装置执行语意解析时,在建置断词表格的时候就同时标注各断词的词性之后立即进入文法剖析,本发明的语意处理方法及使用此方法的电子装置在运用断词表格的基础上,在进入文法剖析之前考虑了多种断词的可能,将可能的字词都纳入文法剖析计算。因此,本发明的语意处理方法及使用此方法的电子装置进行文法剖析时,可以同时剖析多种断词组合的词意与词性,让电子装置得出的文法剖析的结果更精确,电子装置可以更正确的判断使用者输入的语句含意。此外,本发明的语意处理方法及使用此方法的电子装置提供的文法规则,可事先过滤掉不需要被考虑的字词、词意组合或词性组合,可减少句子结构的歧异,解决词意消歧(Word Sense Disambiguation,WSD)问题。并且,本发明的语意处理方法及使用此方法的电子装置可在文法剖析阶段赋予语意角色,使得最后可以产生正确的剖析树,增加剖析结果的正确性。
虽然本发明已以实施例公开如上,然其并非用以限定本发明,任何所属技术领域中的技术人员,在不脱离本发明的精神和范围内,当可作些许的更动与润饰,故本发明的保护范围当视权利要求书所界定的为准。

Claims (20)

1.一种语意处理方法,适用于电子装置,其特征是,所述语意处理方法包含:
根据词库数据库对输入字串解析为多个字词;
建立断词表格,其中所述断词表格包含多个表格区块,并且所述多个表格区块分别位于所述断词表格的多个阶层,所述多个阶层各自的所述多个表格区块逐层递减,所述多个表格区块每一个包含所述多个字词的其中一个或者所述多个字词中相邻的多个字词;
参考所述断词表格的所述多个阶层中的所述多个表格区块的其中一个字词在所述词库数据库中对应的一个或多个词性或参考所述多个表格区块的多个字词在所述词库数据库中对应的一个或多个词性序列;
根据所述断词表格的所述表格区块对应的所述一个或多个词性或所述一个或多个词性序列,对各所述阶层的每一个表格区块执行文法规则;以及
根据所述断词表格中符合所述文法规则的所述多个表格区块,输出剖析树,所述剖析树包含所述多个字词在所述输入字串中的词意以及所述输入字串的句型行为。
2.根据权利要求1所述的语意处理方法,其特征是,将所述输入字串解析为多个字词包含判断所述输入字串中具有至少一个预设词组时,将所述预设词组放置于所述断词表格的所述表格区块的其中一个中,其中所述预设词组包含两个以上的所述字词。
3.根据权利要求1所述的语意处理方法,其特征是,所述文法规则包含判断所述断词表格的各所述阶层的所述表格区块的左边表格区块对应的所述词性是否符合设定词性。
4.根据权利要求1所述的语意处理方法,其特征是,所述文法规则包含判断所述断词表格的各所述阶层的所述表格区块的右边表格区块对应的所述词性是否符合设定词性。
5.根据权利要求1所述的语意处理方法,其特征是,所述文法规则包含判断所述表格区块所使用的字词组合在指定位置的所述表格区块所对应的所述词性,是否符合设定词性。
6.根据权利要求1所述的语意处理方法,其特征是,所述文法规则包含判断P节点,在执行所述文法规则而读取到所述P节点时,暂时通过所述文法规则。
7.根据权利要求6所述的语意处理方法,其特征是,读取到所述P节点而暂时通过所述文法规则后,以另一文法规则中的所述P节点的节点词判断所述节点词是否符合先前暂时通过的所述文法规则。
8.根据权利要求1所述的语意处理方法,其特征是,所述文法规则包含判断所述断词表格的所述表格区块对应的相邻字词的所述词性符合设定词性时,判断所述相邻字词为词组。
9.根据权利要求1所述的语意处理方法,其特征是,所述文法规则具有权重值,当所述断词表格的所述表格区块对应的所述词性或所述词性序列符合文法规则时,加总所述权重值,以及输出具有最高的所述权重值的所述剖析树。
10.根据权利要求1所述的语意处理方法,其特征是,将所述输入字串解析为所述多个字词的断词数目为所述断词表格的所述表格区块的数目。
11.一种电子装置,其特征是,包含:
储存媒体,储存至少一个程序指令以及词库数据库;
输入输出介面,用以取得输入字串;以及
处理器,耦接所述储存媒体以及所述输入输出介面,所述处理器载入并执行储存于所述储存媒体中的所述至少一个程序指令,所述处理器用以:
根据所述词库数据库对所述输入字串解析为多个字词;
建立断词表格,其中所述断词表格包含多个表格区块,并且所述多个表格区块分别位于所述断词表格的多个阶层,所述多个阶层各自的所述多个表格区块逐层递减,所述多个表格区块每一个包含所述多个字词的其中一个或者所述多个字词中相邻的多个字词;
参考所述断词表格的所述多个阶层中的所述多个表格区块的其中一个字词对应于所述词库数据库中的一个或多个词性或参考所述多个表格区块的多个字词在所述词库数据库中对应的一个或多个词性序列;
根据所述断词表格的所述表格区块对应的所述一个或多个词性或所述一个或多个词性序列,对各所述阶层的每一个表格区块执行文法规则;以及
根据所述断词表格中符合所述文法规则的所述多个表格区块,输出剖析树,所述剖析树包含所述多个字词在所述输入字串中的词意以及所述输入字串的句型行为。
12.根据权利要求11所述的电子装置,其特征是,所述处理器还用以判断所述输入字串中具有至少一个预设词组时,将所述预设词组放置于所述断词表格的所述表格区块的其中一个中,其中所述预设词组包含两个以上的所述字词。
13.根据权利要求11所述的电子装置,其特征是,所述处理器还用以判断所述断词表格的各所述阶层的所述表格区块的左边表格区块对应的所述词性是否符合设定词性。
14.根据权利要求11所述的电子装置,其特征是,所述处理器还用以判断所述断词表格的各所述阶层的所述表格区块的右边表格区块对应的所述词性或指定位置的所述表格区块对应的所述词性是否符合设定词性。
15.根据权利要求11所述的电子装置,其特征是,所述处理器还用以判断P节点,在执行所述文法规则而读取到所述P节点时,暂时通过所述文法规则。
16.根据权利要求15所述的电子装置,其特征是,所述处理器还用以在读取到所述P节点而暂时通过所述文法规则后,以另一文法规则中的所述P节点的节点词判断所述节点词是否符合先前暂时通过的所述文法规则。
17.根据权利要求11所述的电子装置,其特征是,所述处理器还包含判断所述断词表格的所述表格区块对应的相邻字词的所述词性符合设定词性时,判断所述相邻字词为词组。
18.根据权利要求11项所述的电子装置,其特征是,所述文法规则具有权重值,所述处理器还用以于判断所述断词表格的所述表格区块对应的所述词性或所述词性序列符合文法规则时加总所述权重值,以及输出具有最高的所述权重值的所述剖析树。
19.根据权利要求11所述的电子装置,其特征是,所述处理器还用以将所述输入字串解析为所述多个字词的断词数目为所述断词表格的所述表格区块的数目。
20.一种非暂态电脑可读取记录媒体,所述非暂态电脑可读取记录媒体记录至少一个程序指令,所述至少一个程序指令应用于电子装置,其特征是,程序指令载入所述电子装置后,执行下列步骤:
根据词库数据库对输入字串解析为多个字词;
建立断词表格,其中所述断词表格包含多个表格区块,并且所述多个表格区块分别位于所述断词表格的多个阶层,所述多个阶层各自的所述多个表格区块逐层递减,所述多个表格区块每一个包含所述多个字词的其中一个或者所述多个字词中相邻的多个字词;
参考所述断词表格的所述多个阶层中的所述多个表格区块的其中一个字词在所述词库数据库中对应的一个或多个词性或参考所述多个表格区块的多个字词在所述词库数据库中对应的一个或多个词性序列;
根据所述断词表格的所述表格区块对应的所述一个或多个词性或所述一个或多个词性序列,对各所述阶层的每一个表格区块执行文法规则;以及
根据所述断词表格中符合所述文法规则的所述多个表格区块,输出剖析树,所述剖析树包含所述多个字词在所述输入字串中的词意以及所述输入字串的句型行为。
CN201811122087.4A 2018-09-26 2018-09-26 语意处理方法、电子装置以及非暂态电脑可读取记录媒体 Active CN110955748B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811122087.4A CN110955748B (zh) 2018-09-26 2018-09-26 语意处理方法、电子装置以及非暂态电脑可读取记录媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811122087.4A CN110955748B (zh) 2018-09-26 2018-09-26 语意处理方法、电子装置以及非暂态电脑可读取记录媒体

Publications (2)

Publication Number Publication Date
CN110955748A CN110955748A (zh) 2020-04-03
CN110955748B true CN110955748B (zh) 2022-10-28

Family

ID=69962366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811122087.4A Active CN110955748B (zh) 2018-09-26 2018-09-26 语意处理方法、电子装置以及非暂态电脑可读取记录媒体

Country Status (1)

Country Link
CN (1) CN110955748B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5251129A (en) * 1990-08-21 1993-10-05 General Electric Company Method for automated morphological analysis of word structure
CN1290371A (zh) * 1998-02-13 2001-04-04 微软公司 中文文本中的字词分割方法
JP2002202967A (ja) * 2000-10-24 2002-07-19 Nova Inc 機械翻訳システム
TWI225997B (en) * 2003-08-12 2005-01-01 Inst Information Industry Chinese ontology auto-establishment system and method, and storage media
TW200529014A (en) * 2004-02-24 2005-09-01 Simpleact Inc Method for processing Chinese natural language sentence
TW200630827A (en) * 2005-02-23 2006-09-01 Hsin-Hsi Chen Chinese opinion retrieval and extraction systems
CN1991819A (zh) * 2005-12-30 2007-07-04 北京法国电信研发中心有限公司 语言形态分析器
CN106021230A (zh) * 2016-05-19 2016-10-12 无线生活(杭州)信息科技有限公司 一种分词方法及装置
TWI582627B (zh) * 2016-05-13 2017-05-11 國立雲林科技大學 資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體
CN108280064A (zh) * 2018-02-28 2018-07-13 北京理工大学 分词、词性标注、实体识别及句法分析的联合处理方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5251129A (en) * 1990-08-21 1993-10-05 General Electric Company Method for automated morphological analysis of word structure
CN1290371A (zh) * 1998-02-13 2001-04-04 微软公司 中文文本中的字词分割方法
JP2002202967A (ja) * 2000-10-24 2002-07-19 Nova Inc 機械翻訳システム
TWI225997B (en) * 2003-08-12 2005-01-01 Inst Information Industry Chinese ontology auto-establishment system and method, and storage media
TW200529014A (en) * 2004-02-24 2005-09-01 Simpleact Inc Method for processing Chinese natural language sentence
TW200630827A (en) * 2005-02-23 2006-09-01 Hsin-Hsi Chen Chinese opinion retrieval and extraction systems
CN1991819A (zh) * 2005-12-30 2007-07-04 北京法国电信研发中心有限公司 语言形态分析器
TWI582627B (zh) * 2016-05-13 2017-05-11 國立雲林科技大學 資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體
CN106021230A (zh) * 2016-05-19 2016-10-12 无线生活(杭州)信息科技有限公司 一种分词方法及装置
CN108280064A (zh) * 2018-02-28 2018-07-13 北京理工大学 分词、词性标注、实体识别及句法分析的联合处理方法

Also Published As

Publication number Publication date
CN110955748A (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
EP0907923B1 (en) Method and system for computing semantic logical forms from syntax trees
Thompson et al. A generative model for semantic role labeling
JP4625178B2 (ja) テキストの本文の談話構造の自動認識
KR102013230B1 (ko) 구문 전처리 기반의 구문 분석 장치 및 그 방법
US6035269A (en) Method for detecting stylistic errors and generating replacement strings in a document containing Japanese text
US11386269B2 (en) Fault-tolerant information extraction
CA3191100A1 (en) Automatically identifying multi-word expressions
CN114970506A (zh) 基于多粒度语法错误模板学习微调的语法纠错方法和系统
Briscoe Prospects for practical parsing of unrestricted text: Robust statistical parsing techniques
Woods Exploiting linguistic features for sentence completion
US20210133394A1 (en) Experiential parser
US11501077B2 (en) Semantic processing method, electronic device, and non-transitory computer readable recording medium
Wintner Formal language theory
Abdulrahman et al. A language model for spell checking of educational texts in kurdish (sorani)
JP4278090B2 (ja) 単語の使用を訂正または改善させる装置および方法、コンピュータプログラム、並びに格納媒体
CN110955748B (zh) 语意处理方法、电子装置以及非暂态电脑可读取记录媒体
Ehsan et al. Statistical Parser for Urdu
Kuboň Problems of robust parsing of Czech
Açıkgöz et al. All-words word sense disambiguation for Turkish
Entwisle et al. A method of parsing English based on sentence form
Kempen et al. A language-sensitive text editor for Dutch
Fong et al. Treebank parsing and knowledge of language
Curteanu et al. A Procedural DTD Project for Dictionary Entry Parsing Described with Parameterized Grammars
Kloppenburg et al. Native-data models for detecting and correcting errors in learners’ Dutch
Le et al. An experimental study on lexicalized statistical parsing for Vietnamese

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant