CN1065974C

CN1065974C - 字词分析以检索句子的装置与方法

Info

Publication number: CN1065974C
Application number: CN97119684A
Authority: CN
Inventors: 张景嵩; 邱全成; 哈弼亮; 毕红卫
Original assignee: Inventec Corp
Current assignee: Inventec Corp
Priority date: 1997-09-25
Filing date: 1997-09-25
Publication date: 2001-05-16
Anticipated expiration: 2017-09-25
Also published as: CN1212408A

Abstract

一种分析字词以检索句子的装置与方法，归纳句子数据库中的字词所能表达的意念，建立意念与句子的对应表，接着对字词的意念进行分类，以建立字词与意念的对应表。在使用者输入字词之后，通过字词与意念的对应表，检索出此字词所能表达的数种意念解释，并在使用者输入意念选项以选定字词的数种意念其中之一后，再通过意念与句子的对应表，自句子数据库中检索出对应句子，藉由此方法有效的提高检索的命中率和检索速度。

Description

字词分析以检索句子的装置与方法

本发明涉及一种检索句子的装置与方法，特别是一种正确分析字词且快速地检索出句子的装置与方法。

传统的检索句子的方法，一般是采用对句子中的每一个字词利用字词和句子的对应关系，建立索引表，在输入字词之后，利用此索引表，从而检索找到对应字词的句子。这种检索方式，在遇到字词的多重解释(多意念性(Muti-concept))时，往往会找出许多不需要的句子，因此这种方法缺乏正确性与实效性。一般而言，对输入的字词由计算机检索句子的方法，均依照下列几个基本步骤处理：

1．将中文、英文或其他语言的字词的输入计算机。

2．通过字词与句子对应表查出字词对应的句子。

由于各种语言中，字词常常具多意念(意思)性，使用者找到的句子很可能并不是他想要的，例如：使用者输入字词“miss”想查找表示想念的句子，会找出下面的句子：“All right，I Won＇t miss it for anything.” “我一定不会错过的”

这个输出结果是不正确的。

此外，由于同一个意思可以用若干同义词来表示，检索时会漏掉可用其他字词描述来表达此意思的句子，例如：使用者输入字词“容忍”去检索时，会检索不到下面的句子：“He cannot brook being interfered with．”“他不能忍受别人的干扰”

因此，传统检索方式并不能有效地检索出使用者真正想检索出能表达输入字词意思的句子，且对于同义字的表达亦不具备此项功能，因此传统检索方式限制了其他检索功能的发展。

本发明的主要目的在于提供一种用以通过分析字词而检索句子的装置和方法，使用者可依据输入字词的意念(意思)，去检索出真正所想要表达的字词意念(意思)的句子。

本发明的另一目的在于提供一种字词分析以检索句子的装置与方法，使用者可利用辨识输入字词的意念用同义词代替输入字词的方式，找寻出与该字词同义而有不同表达方式的句子。

根据以上所述的目的，本发明提供了一种通过字词分析检索句子的装置与方法，在字词检索句子的过程中，增加了一意念辨析装置和一意念检索装置，使用者能利用意念辨析装置以对输入的字词进行意念分类，并通过意念检索装置，检索出对应输入字词句子。本发明方法包含下列步骤：

在使用者输入一字词之后，通过意念辨析装置对输入的字词进行意念(意思)分类，然后从字词数据库检索出输入字词的地址，并从目标字词意念数据库检索出该字词所对应映数个意念(意思)的数个意念地址。接着从意念数据库检索出数个意念(意思)，并显示数个意念(意思)给使用者。由使用者输入意念(意思)选项信号，以选择数个意念(意思)其中之一，接着输出选定的意念地址至意念检索装置，以进行句子检索。从目标意念句子数据库检索出该意念(意思)所对应句子的的句子地址，接着根据句子地址从句子数据库中检索出正确的句子，并显示该句子给使用者。

现在参阅附图，描述本发明的最佳实施例。

图1为依据本发明的方法，形成字词分析以检索句子的装置的方块图。

图2为依据本发明的方法，建立原始字词意念数据库的流程图。

图3为依据本发明的方法，建立原始意念句子数据库的流程图。

图4为依据本发明的方法，通过意念辨析程序进行意念辨析的流程图。

图5为依据本发明的方法，通过意念检索程序进行句子检索的流程图。

图6为依据本发明的方法，形成句子数据库的示意图。

图7为依据本发明的方法，形成原始字词意念数据库的示意图。

图8为依据本发明的方法，形成字词数据库的示意图。

图9为依据本发明的方法，形成意念数据库的示意图。

图10为依据本发明的方法，形成目标字词意念数据库的示意图。

图11为依据本发明的方法，形成原始意念句子数据库的示意图。

图12为依据本发明的方法，形成目标意念句子数据库的示意图。

各种语言的字词在不同句子中一般具有多重的解释，即为多意念(意思)性，因此每一个字词可表达多个不同的意念(意思)。句子是由多个字词所组成的，组成句子的每一个字词在句子中应表达唯一的意念(意思)，本发明即根据上述规律建立了一意念辨析装置和一意念检索装置，从而利用意念辨析装置以对字词进行意念(意思)分析，辨析字词的多种不同意思，然后使用者输入选项信号，选择这个字词的唯一意思(这个字词唯一表达的意念)。接着通过意念检索装置进行字子检索，从而获得对应于输入字词的意念的适当句子。

先参见图1所示，为本发明的结构。包含只读存储器(Read OnlyMemory；ROM)101，存储软件程序、文字源(Wording Source)102，系用以提供所检索的字词内容、微处理器(Microprocessor)103，用以做为中央的控制，以整合字词数据、随机存取存储器(Random AccessMemory；RAM)104，用以储存与检索字词数据、输入设备105，由使用者输入查询的字词和输入意念选项信号、输出设备106，用以显示数个意念(意思)选项和检索出对应于输入字词的意念的句子给使用者、意念辨析装置107，用以对该字词进行意念(意思)辨析，以及意念检索装置108，用以对该字词所辨析出的意念(意思)，进行句子检索，得到对应于输入字词的意念的句子。文字源102提供所检索的字词内容，在通过只读存储器(ROM)101的软件程序控制下，并经由微处理器103做字词数据处理，将文字源102中的字词内容重新分析和整合，并将整合的字词数据储存在随机存取存储器(RAM)104中以形成多种相关的字词数据(例如：句子数据库、原始字词意念库、字词数据库、意念数据库、目标字词意念数据库、原始意念句子数据库、目标意念句子数据库)。而其中随机存取存储器(RAM)104可作为计算机的数据库(语言工程的资料库)，用以储存经由微处理器103做字词内容的数据整合工作之后的多种相关的字词数据。然而，当使用者通过输入设备105输入一字词之后，将该字词送入意念辨析装置107进行输入字词的意念辨析，接着经由输出设备106向使用者显示该字词所包含的多种意念(意思)，使用者通过输入设备105选定一特定意念(意思)之后，将选定后的特定意念(意思)的地址传于意念检索装置108以进行适当的句子的检索，接着将适当的句子输出给使用者，从而实现本发明的句子检索。

本发明的意念辨析装置和意念检索装置形成方法如下所述：

1．将来自文字源的句子储存在计算机的数据库中，以建立存储句子的句子数据库(参见图6)，句子数据库中句子的每个字词可以表达多种不同的意念(意思)。因此，归纳句子数据库的句子中各字词在句中所表达的意念(意思)，对字词所表达的意念(意思)进行分类，从而建立字词与意念(意思)的对应表，对应表存有字词与意念的关系。接着将字词与意念对应表存入计算机的数据库中以建立有字词和意念关系的原始字词意念数据库(参见图5的流程图和图7)。

2．根据原始字词意念数据库，以字词为序建立存储字词的字词数据库(参见图8)，以意念为序建立意念数据库(参见图9)。以字词数据库的字词ID号(字词地址)为序，并参考到原始字词意念数据库和意念数据库，藉由配合意念数据库的意念ID号(地址)以建立存储意念和排序的字词关系的目标字词意念数据库(参见图10)。

3．通过目标字词意念数据库和利用字词辨析程序，构成本发明的意念辨析装置，以辨析出输入字词对应的多种意念(意思)。

4．分析句子数据库中每一个句子，归纳每个字词在句子数据库的句子中所表达的意念(意思)，根据意念数据库建立存有意念和句子关系的意念(意思)与句子的对应表，并存入计算机的数据库中以建立原始意念句子数据库，它存有意念和句子的关系(参见图3流程和图11)。

5．根据原始意念句子数据库和意念数据库，以意念数据库的意念ID号(意念地址)为序，对原始意念句子数据库进行排序整理，以得到目标意念句子数据库，它存有句子和排序的意念的关系(参见图12)。

6．通过目标意念句子数据库和利用意念检索程序构成本发明的意念检索装置，以检查出与期望的意念对应的适当句子。

根据以上所述，对建立原始字词意念数据库的流程详加描述。

参见图2所示，在建立好的句子数据库中，依序检索句子数据库的句子，步骤202和步骤204，自句子数据库中检索序号为N(N从1开始)的第N个句子，然后根据第N个句子，再依序检索该句子中的各字词，如步骤206和步骤208所示，自第N个句子中检索序号为T(T从1开始)的第T个字词。接着分析第T个字词在和第N个句子中所表达的意念(意思)(步骤210)，之后在步骤212判定句子中的第T个字词是否分析过，若尚未分析，否分支通往步骤214，在步骤214分析第T个字词，获得所对应的意念(意思)，并将得到的一组意念(意思)与该字词的对应关系，添加入原始字词意念数据库中。之后，增加句子中字词序号T=T+1(步骤216)。在步骤212后若该字词已分析过，就直接执行步骤216。接着判断该句子中第T个字词是否为最后一个字词(步骤218)，若不是最后一个字词，否分支通往步骤208，重复步骤208到步骤218，直到该序号为N的第N个句子内所有的字词皆分析完毕。之后增加句子序号N=N+1(步骤220)。接着判断该句子是否为最后一个句子(步骤222)，若不是最后一个句子，否分支通往步骤204，重复步骤204到步骤222，直到句子数据库中所有的句子皆分析完毕，以建立一完整的原始字词意念数据库。

此外，对建立原始意念句子数据库的流程也加以描述。参见图3所示，在建立好的句子数据库中，依序检索句子数据库的句子。在步骤302和304，自句子数据库中检索序号N(N从1开始)的第N个句子，并根据检索第N个句子，再依序检索该句子中的各字词，如步骤306和步骤308所示，自第N个句子中读取序号为T(T从1开始)的第T个字词。接着按照意念数据库(参见图9)分析第N个句子中的第T个字词，获得所对应的意念(意思)，并将意念(意思)与句子的一组对应关系，添加入原始意念句子数据库中(步骤310)。之后增加字词序号T=T+1(步骤312)，并接着判断第T字词是否为最后一个字词(步骤314)，若不是最后一个字词，否分支往步骤308，程序重复步骤308到步骤314，直到该序号为N的第N个句子内所有的字词皆分析完毕，之后，增加句子序号N=N+1(步骤316)，并接着判断该句子是否为最后一个句子(步骤318)，若不是最后一个句子，否分支通往步骤304，程序重复步骤304到步骤318，直到句子数据库中所有的句子皆分析完毕，以建立一完整的原始意念句子数据库。

接着参见图4所示，为本发明方法的意念辨析程序进行意念分析的流程图。使用者通过输入设备输入欲查询的一字词之后(步骤402)，由微处理器将该字词送入意念辨析装置进行意念辨析。通过微处理器在以字词为序的字词数据库中(参见图8)，利用二分查找或其它检索方法寻找出此字词，然后得到其对应的字词ID号(步骤404)。接着根据检索到的字词ID号，在以字词ID号为序的目标字词意念数据库中(参见图10)，利用二分查找或其他检索方法寻找出该字词所对应的意念ID号(步骤406)。之后，根据找到的意念ID号，在意念库数据中(参见图9)找到与意念的ID号相对应的意念(步骤408)，再以列表或其它方式通过输出设备把意念显示给使用者(步骤410)，并请求使用者选择期望查询的该字词的意念(意思)(步骤412)。在使用者通过输入设备输入意念选项信号，以选择输入字词的适当意义(步骤414)，即完成意念辨析过程，并将选择的意念的ID号结果，传入意念检索装置(步骤416)，以进行适当句子的检索。

接着参见图5所示，为本发明的意念检索程序进行句子检索的流程图。在接收意念辨析装置输出的意念ID号(步骤502)之后，在以意念ID号为序的目标意念句子数据库中(参见图12)，通过微处理机利用二分查找或其他检索方法寻找所选择的意念(意思)对应的句子ID(步骤504)，然后根据句子ID号，从句子数据库中(参见图6)检索与意念相对应的句子(步骤506)，接着再通过输出设备将找到的句子，显示给使用者(步骤508)，从而完成了检索适当句子的程序。

综合上述技术，以下列两个例子详加说明：

例子一：

以句子“你下一步计划做什么?”的查询为例，输入中文词“计划”，送入意念辨析装置，查询字词数据库得到字词ID号，查询目标字词意念数据库得到两个意念(意思)的意念ID号k号k+1，再通过意念数据库得到对应的意念：

序号	字词	意念
序号	字词	意念	…	……	… …
k-2	计量	计算；核算；核计；计量	…	……	… …
k-2	计量	计算；核算；核计；计量	k-1	计量	测量；计量；称量；测定
k	·计划	计划；打算；预定；想要	k-1	计量	测量；计量；称量；测定
k	·计划	计划；打算；预定；想要	k+l	·计划	安排；筹划；计划；准备
k+2	计算	计算；算出；核算；核计	k+l	·计划	安排；筹划；计划；准备
k+2	计算	计算；算出；核算；核计	…	…	… …

将查到的两个意念(意思)显示给使用者，并请使用者选择：

若使用者选择了“计划；打算；预定；想要”这个意念，意念辨析装置将对应的ID号k传给意念检索装置。意意检索装置通过目标意念句子数据库查到了一批句子ID号，再通过句子数据库查到相对应的句子的内容，并通过输入设备显示给使用者：

…… …… …… …… …… ……
…… …… …… …… …… ……	．Do you aim to pursue advanced studies
abroad or at home?你找算去国外还是在国内深造?	．Do you aim to pursue advanced studies
abroad or at home?你找算去国外还是在国内深造?	．We plan to hold another trial．我们打算再试一下。
●．What do you Want to do next．你下步打算做什么?	．We plan to hold another trial．我们打算再试一下。
●．What do you Want to do next．你下步打算做什么?	．He means to succeed．意欲获得成功。
．The captain means to complete the task，one way or another．不管怎么样，队长决意要完成这项任务。	．He means to succeed．意欲获得成功。
	…… …… …… …… …… ……

其中的第三句“你下步打算做什么?”虽然文字与最初想查询的句子有些区别，但意思是一样的，这样就找到符合要求的句子，而采用以前的检索方式是很难找到这样的句子，所以采用本发明可有效提高句子的命中率和检索速度。

例子二：

以句子“They elected Green to the Academy”的查询为例，使用者输入字词“elect”时，它送入意念辨析装置，查询字词数据库得到字词ID号(字词地址)，接着查询目标字词意念数据库得到两个意念的意念ID号(意念地址)k和k+1，再通过意念数据库得到对应的意念：

序号	字词	意念
序号	字词	意念	…	……	……
k-2	educate	教育；增育；增养；扶植develop；form；cultivate；elevate	…	……	……
k-2	educate	教育；增育；增养；扶植develop；form；cultivate；elevate	k-1	educate	教授；任教；教课；教teach；educate；instruct；tutor
k	●elect	挑选；选择；筛选；选中select；choose；pick	k-1	educate	教授；任教；教课；教teach；educate；instruct；tutor
k	●elect	挑选；选择；筛选；选中select；choose；pick	k+1	●elect	推选；推举；选举；公推elect；vote；choose；return
k+2	elongate	扩展；伸展；延伸；延长spread；extend；stretch；reach	k+1	●elect	推选；推举；选举；公推elect；vote；choose；return
k+2	elongate	扩展；伸展；延伸；延长spread；extend；stretch；reach	…	……	…… ……

将查到的两个意念显示给使用者，并请使用者选择期望的意念：

若使用者选择了“推选”；推举；选举；公推”这个意念，意念辨析装置将对应的意念ID号k+1传给意念检索装置。意念检索装置通过目标意念句子数据库查到了一批句子，再通过句子数据库查到相对应的句子的内容，通过输入设备显示给使用者：

…… …… …… …… …… ……
…… …… …… …… …… ……	·They elected John to the Academy．他们推选约翰为研究院院士。
·they chose me as their representative．他们推选我作他们的代表。	·They elected John to the Academy．他们推选约翰为研究院院士。
·they chose me as their representative．他们推选我作他们的代表。	●·They chose Green to the Academy．他们推选格林为研究院院士。
·People chose him to be their leader．人们选举他做领袖。	●·They chose Green to the Academy．他们推选格林为研究院院士。
·People chose him to be their leader．人们选举他做领袖。	·The representatives returned her to the senate．代表们推选她为参议员。
·All the representatives chose Mr．Jiang Chairman．全体代表选举江先生为主席。	·The representatives returned her to the senate．代表们推选她为参议员。
	…… …… …… …… …… ……

其中的第三句“They chose Green to the Academy．”虽然文字与最初想查询的句子有些区别，但意思是一样的，这样就找到符合要求的句子。然而如果用传统的检索方法，难以找到这样的句子。因此，本发明能提高检索适当句子的命中率，提高检索句子的速度。

以上所述仅为本发明之较佳实施例而已，并非用以限定本发明之申请专利范围，对本领域的技术人员来说，显然凡其它未脱离本发明所揭示的精神下所完成的等效改变或修改，均应包含在下述权利要求范围内。

Claims

1．一种分析字词以检索句子的方法，该方法至少包含下列步骤：

检索出一字词的数个意念；

选择该数个意念其中之一；及

根据选定的意念检索句子。

2．根据权利要求1的方法，其特征在于，上述检索出该数个意念，还包含下列步骤：

接收该字词；

根据该字词检索出一字词地址；

根据该字词地址检索出数个意念地址；及

根据该数个意念地址检索出该数个意念。

3．根据权利要求2的方法，其特征在于藉由输入一意念选项信号以选择出该数个意念其中之一，选择该数个意念其中之一。

4．根据权利要求3的方法，其特征在于根据该选定的意念检索出该句子，还包含下列步骤：

根据该选定的意念的一意念地址，检索出一句子地址；

根据该句子地址检索出该句子。

5．一种分析字词以检索句子的方法，该方法至少包含下列步骤：

接收使用者输入的一字词；

根据该字词从第一数据库检索出一字词地址，该第一数据库储存所述字词，并以所述字词为序；

根据该字词地址从第二数据库检索出数个意念地址，该第二数据库储存所述字词与意念的对应关系，并以所述字词为序；

根据该数个意念地址从第三数据库检索出数个意念，该第三数据库储存所述意念，并以所述意念为序；

通过输入一意念选项信号选择出该数个意念其中之一；

根据该选择的意念的意念地址，从第四数据库检索出一句子地址，该第四数据库储存意念与句子对应关系，并以意念为序；及

根据该句子地址从第五数据库检索出一句子，该第五数据库储存所述句子，并以句子为序。

6．一种分析字词以检索句子的检索装置，该检索装置包括：

第一存储装置，存有程序；

文字源，用以提供检索所述字词内容；

控制处理装置，用以整合所述字词数据；

第二存储装置，用以储存与检索所述字词数据；

输入装置，由使用者输入信号；

输出装置，用以显示信息给该使用者；

意念分析装置，用以根据使用者输入的字词对多个进行辨析；及

意念检索装置，用以根据从该意念辨析装置所输出的一选定的意念地址，进行句子检索。

7．根据权利要求6的装置，其特征在于上述意念辨析装置的形成，至少包含下列步骤：

存入数个句子，建立第一数据库；

从该第一数据库中分类该数个句子的数个字词所表达的意念，以建立第一对应表，该第一对应表储存字词与意念的对应关系；

存储该第一对应表，以建立第二数据库，该第二数据库储存字词与意念的对应关系；

依序排列该第二数据库的该数个字词，以建立第三数据库，该第三数据库储存所述字词，并由该控制处理装置排序，以字词为序；

依序排列该第二数据库的该数个意念，以建立第四数据库，该第四数据库储存意念，并由该控制处理装置排序，以意念为序；及

依序排列该第三数据库的该数个字词，并配合该数个字词所对应的该数个意念，以建立第五数据库，该第五数据库储存字词与意念对应关系，并以字词为序。

8．根据权利要求7的装置，其特征在于上述意念分析装置根据该字词分类该数个意念，该使用者输入该字词，根据该字词从该第三数据库选出一字词地址码，根据该字词地址码从该第五数据库选出数个意念地址，根据该数个意念地址从该第四数据库检索出该数个意念，藉由该使用者输入一意念选项信号以选择该数个意念其中之一，该选定的意念的该意念地址输出到该意念检索装置。

9．根据权利要求7的装置，其特征在于上述的意念检索装置的形成，包含下列步骤：

从该第一数据库中分类该数个句子的该数个字词所表达的意念，并参考该第四数据库以建立第二对应表，该第二对应表储存意念与句子的对应关系；

存储该第二对应表，以建立第六数据库，该第六数据库储存意念与句子的对应关系；及

依序排列第四数据库的该数个意念，并配合该第六数据库中该数个意念所对应的该数个句子，以建立第七数据库，该第七数据库储存意念与句子对应关系，并以意念为序。

10．根据权利要求9的装置，其特征在于上述意念检索装置根据该意念辨析装置所输出的该选定的意念地址检索出该句子，根据该选定的意念地址从该第七数据库检索出一句子地址，根据该句子地址从该第一资料库检索出该句子。

11．根据权利要求6的装置，其特征在于，该意念分析装置接收该使用者通过该输入装置所输入的该字词，去分类该字词的该数个意念，该数个意念通过该输出装置显示给该使用者。

12．根据权利要求11的装置，其特征在于该使用者通过该输入装置输入意念选项信号，以选择该数个意念其中之一。

13．根据权利要求12的装置，其特征在于该使用者选定该数个意念其中之一之后，通过该意念检索装置检索出该数个意念其中之一所对应的该句子，并通过该输出装置显示给该使用者。