CN101630316B - 文字信息提示系统 - Google Patents

文字信息提示系统 Download PDF

Info

Publication number
CN101630316B
CN101630316B CN2008101377601A CN200810137760A CN101630316B CN 101630316 B CN101630316 B CN 101630316B CN 2008101377601 A CN2008101377601 A CN 2008101377601A CN 200810137760 A CN200810137760 A CN 200810137760A CN 101630316 B CN101630316 B CN 101630316B
Authority
CN
China
Prior art keywords
information
text prompt
prompt information
literal
mentioned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008101377601A
Other languages
English (en)
Other versions
CN101630316A (zh
Inventor
周泉
刘宏建
永松健司
布社辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to CN2008101377601A priority Critical patent/CN101630316B/zh
Publication of CN101630316A publication Critical patent/CN101630316A/zh
Application granted granted Critical
Publication of CN101630316B publication Critical patent/CN101630316B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种文字信息提示系统及文字提示信息产生装置,对于要查询的文字,生成并输出与该文字有关的、用于对该文字进行补充说明和提示的文字提示信息。包括:输入装置,输入要查询的文字;文字提示信息计算装置,对上述输入装置所输入的文字进行分析、计算并产生该文字的文字提示信息;以及输出装置,输出上述文字提示信息计算装置所产生的文字提示信息,上述文字提示信息计算装置包括:多个文字提示信息产生单元,分别计算并产生上述输入的文字的不同类型的文字提示信息;提示信息选择单元,从上述各文字提示信息产生单元所产生的不同类型的文字提示信息中选择文字提示信息,并输出给输出装置。

Description

文字信息提示系统
技术领域
本发明涉及文字信息提示系统以及该系统中的文字提示信息计算装置,对于要查询的文字,生成并输出与该文字有关的、用于对该文字进行补充说明和提示的文字提示信息。
背景技术
目前,语音技术在世界范围内得到了极大的应用。越来越多的人机交互方式采用声音输入,声音输出的方式。在车载导航系统,智能学习,机器翻译等各个领域中,使用语音输入和输出达到系统交互目的的模式更是数不胜数。
但是这样的语音技术的人机交互方式中存在着如下问题,即:在输出一方,在仅有语音输出而没有视觉信息的帮助的情况下,对于发音相同的同音字或不经常使用的生僻字,使用者会很难确认。另外,即使是常使用的文字,对于一个单独的汉字来说,仅通过该汉字的读音,也很难让使用者很快产生共鸣。因此希望除了提供文字读音的声音信息之外,还能提供其他信息来进行补充说明,以让使用者能迅速、准确、清楚地明白所输出的文字。对于汉字来说,这样的在读音之外可以对文字进行补充说明的文字提示信息可以包含:汉字所在词的信息、汉字本身的结构信息、汉字所具有的语义信息等。
所谓汉字所在词的信息,就是用包含该汉字的词来提示该汉字的文字提示信息。使用汉字所在词的信息,尤其对于单字没有具体意义、但是由该单字组成的词有明确的具体意义的情况特别适合。例如:“璀璨”,“璀”和“璨”单独几乎都没有什么意义,但是两个字合在一起构成词之后就具有很明确的含义了。因此在输出其中的某一个汉字时,可以在读音的基础上,再加上相应的文字提示信息,例如,可以说“璀,璀璨的璀”,或者“璨,璀璨的璨”。这就是使用汉字所在词的信息作为文字提示信息来对文字进行提示。
目前有些专利已经使用了词的信息来确定字,例如:“
Figure S2008101377601D00021
択入力装置及び択入力処理プログテムを記録したコンピユ-タ読み取り可能な記録媒体”(日本特開2000-194691),这篇专利使用了词的信息来确定输入的字,但是在该专利中字所对应的词是固定的,不具有自适应性,即没有用户的个人特征。
所谓汉字结构的信息,是指用与汉字本身的结构有关的信息来提示该汉字的文字提示信息。使用汉字结构的信息来确定汉字,在文本输入领域应用很多。很多输入法都使用了汉字的结构信息来确定汉字。通常,在中文中汉字的结构信息多使用“边旁部首”来描述。但是很多部首没有合适的发音,很难在语音技术中利用。有些专利定义了一些可发音的部首来进行语音输入,但是固化的发音部首不仅多而且难以一一记住,同时很多用户自己的习惯不能在输入中体现。例如专利“汉字单字音意语音输入方法”(中国专利公开号:CN 1234541A)
汉字语义信息是本申请的发明人想到的一种可以利用的文字提示信息的种类。汉字在不同的语境中大多会具有不同的意思,同样,大多的汉字都会有极具代表性的意思。在一些没有相关词或者相关词比较生僻、同时字的结构信息又比较复杂时,用语义描述更容易被理解。例如“狴犴”这个词不是很常用,并且“狴犴”这两个字本身也很生僻,不论使用前述汉字所在词信息还是汉字结构信息都难以进行有效、清晰的提示。但是如果用“狴犴”的语义信息进行提示,即,“狴犴”是龙的九子之一,就有可能形成有效的提示。
上述各个提示信息均存在着各自的局限性,因此,希望有一种技术,能够将上述各个类型的提示信息加以综合运用,从而在基于语音技术的人机交互方式中,对输出的文字提供有效的提示信息来进行补充说明,以让使用者能迅速、准确、清楚地明白所输出的文字。
发明内容
本发明的目的在于综合使用各种文字提示信息,极大程度考虑各种层次以及类别的人群的使用习惯,提供更有效的提示信息对文字进行补充说明,从而给出自适应的文字信息提示系统以及该系统中的文字提示信息计算装置。
为了实现上述本发明的目的,根据本发明的一个方面,提供了一种文字信息提示系统,对于要查询的文字,生成并输出与该文字有关的、用于对该文字进行补充说明和提示的文字提示信息,其特征在于,该系统包括:输入装置,输入要查询的文字;文字提示信息计算装置,对上述输入装置所输入的文字进行分析、计算并产生该文字的文字提示信息;以及输出装置,输出上述文字提示信息计算装置所产生的文字提示信息,上述文字提示信息计算装置包括:多个文字提示信息产生单元,分别计算并产生上述输入的文字的不同类型的文字提示信息;提示信息选择单元,从上述各文字提示信息产生单元所产生的不同类型的文字提示信息中选择文字提示信息,并输出给输出装置。
根据该结构,本发明的文字信息提示系统中,文字提示信息计算装置包括多个文字提示信息产生单元,分别计算并产生所输入的文字的不同类型的文字提示信息;进而,提示信息选择单元从上述各文字提示信息产生单元所产生的不同类型的文字提示信息中选择最合适的文字提示信息,输出给输出装置。这样,本发明的文字信息提示系统可以在多种类型的文字提示信息中,选择最合适的最有效的文字提示信息进行输出。
优选地,上述提示信息选择单元对各个文字提示信息产生单元产生的文字提示信息进行排序,依次选择并输出排序后的文字提示信息。
优选地,各个文字提示信息产生单元被分配有序号,上述提示信息选择单元根据各个文字提示信息产生单元所具有的序号,对其分别产生的文字提示信息进行相应的排序。
根据上述结构,各个文字提示信息产生单元可以预先被分配有序号,根据序号对各个单元进行排序,排序在前的单元所产生的那一类型的文字提示信息也被排序为在前。在初始状态下可以按照文字提示信息的有效性,对产生最有效的那一类文字提示信息的产生单元赋予最先的序号,使其排序在最前。
优选地,该系统还具备反馈装置和统计信息存储装置,上述反馈装置允许用户对上述输出装置输出的文字提示信息进行关于该文字提示信息是否有效的反馈,并将用户的反馈信息传递给统计信息存储装置;上述统计信息存储装置对上述反馈信息进行统计处理,并根据统计处理结果对上述各文字提示信息产生单元的序号进行更新。
这样,除了在初始状态下按照文字提示信息的有效性对文字提示信息产生单元赋予序号之外,还可以通过设置反馈装置和统计信息存储装置,通过使用过程中用户的反馈的统计结果,对文字提示信息产生单元的序号进行更新,更新后的文字提示信息产生单元的排序体现了使用过程中的统计结果,因此可以进行更适合使用者的自适应型的文字信息提示。
优选地,上述文字提示信息计算装置还具备迭代单元,该迭代单元进行文字提示信息的迭代处理,该迭代处理为:提取要输出给上述输出装置的文字提示信息中的文字,将所提取的文字提供给上述各文字提示信息产生单元,再次计算文字提示信息,并将再次计算出的文字提示信息也输出给输出装置。
而且,上述迭代单元按照预先设置的迭代次数,进行多次上述迭代处理。
这样,通过迭代处理可以对文字提示信息中包含的文字进一步产生其自身的文字提示信息,可以进行更为有效的文字信息提示。
优选地,上述多个文字提示信息产生单元包括:语义信息类型的文字提示信息产生单元,产生与文字的语义信息有关的文字提示信息,该语义信息至少包括与文字本身是否具有含义、以及该含义在公共领域中使用的比率有关的信息。
而且,上述多个文字提示信息产生单元还包括从以下类型的文字提示信息产生单元中选择出来的至少一个文字提示信息产生单元,这些类型包括:文字所在词信息类型的文字提示信息产生单元,产生与文字所在词信息有关的文字提示信息,该文字所在词信息至少包括与文字是否为多音字、包含文字的词出现的频率、包含文字的词的长度、以及包含文字的词的词性有关的信息;结构信息类型的文字提示信息产生单元,产生与文字的结构信息有关的文字提示信息,该结构信息至少包括与语言习惯、按结构将文字分离出来的部首的数目、以及分离出来的部首是否可以发音有关的信息;以及首要结构信息类型的文字提示信息产生单元,产生与文字的首要结构信息有关的文字提示信息,该首要结构信息至少包括与文字的首要结构的语言习惯、首要结构是否可以发音、以及首要结构的复杂性有关的信息。
通过以上具体结构,本发明的文字信息提示系统可以产生语义信息类型的文字提示信息,以及文字所在词信息类型的文字提示信息、结构信息类型的文字提示信息、首要结构信息类型的文字提示信息中的至少一个,可以进行有效的文字信息提示。
另外,本发明的上述结构中,所述文字是汉字;所述文字提示信息包括汉字所在词的信息、汉字本身的结构信息和汉字所具有的语义信息中的至少一个。
根据本发明的另一方面,提供了一种文字提示信息计算装置,对输入的文字进行分析、计算并输出与该文字有关的、用于对该文字进行补充说明和提示的文字提示信息,其特征在于,包括:多个文字提示信息产生单元,分别计算并产生上述输入的文字的不同类型的文字提示信息;提示信息选择单元,从上述各文字提示信息产生单元所产生的不同类型的文字提示信息中选择文字提示信息,并进行输出。
其中,也可以是,该文字提示信息计算装置还具备反馈单元和统计信息存储单元,上述反馈单元允许用户对上述输出的文字提示信息进行关于该文字提示信息是否有效的反馈,并将用户的反馈信息传递给统计信息存储单元;上述统计信息存储单元对上述反馈信息进行统计处理,并根据统计处理结果对上述各文字提示信息产生单元的序号进行更新。
根据以上结构,能够将各个类型的提示信息加以综合运用,从而在基于语音技术的人机交互方式中,对输出的文字提供更有效的提示信息来进行补充说明,以让使用者能准确清楚地明白所输出的文字。通过这样综合使用各种文字提示信息,极大程度考虑各种层次以及类别的人群的使用习惯,从而实现了自适应的文字信息提示系统以及该系统中的文字提示信息计算装置。
附图说明
图1是本发明的一个典型应用的流程图;
图2是根据本发明一个实施方式的文字信息提示系统的框图;
图3是根据本发明另一实施方式的文字信息提示系统的框图;
图4是根据本发明又一实施方式的文字信息提示系统的框图;
图5是本发明的一个实施例的硬件结构图;
图6a是类型1提示信息产生单元(1021)的工作原理图;
图6b是类型1提示信息产生单元(1021)的一个具体统计记录表格;
图6c是词性打分表;
图7a是类型2提示信息产生单元(1022)的工作原理图;
图7b是类型2提示信息产生单元(1022)的一个具体统计记录表格;
图8a是类型3提示信息产生单元(1023)的工作原理图;
图8b是类型3提示信息产生单元(1023)的一个具体统计记录表格;
图8c是结构评价表;
图9a是类型4提示信息产生单元(1024)的工作原理图;
图9b是类型4提示信息产生单元(1024)的一个具体统计记录表格;
图10a是混合类型信息产生单元(1025)的工作原理图;
图10b是混合类型信息产生单元(1025)的一个具体统计记录表格;
图11是迭代类型信息产生单元(1026)的工作原理图;
图12a是反馈单元(103)的工作原理图;
图12b是反馈信息表在各个级别的一个片断;
图12c-1~图12c-4是反馈信息表反馈确认之后的结果图;
图12d是反馈信息表的各个状态图;
图13a表示核心统计信息存储装置中的字记录表。
图13b表示核心统计信息存储装置中的词记录表。
图14是投票单元(401)的工作原理图
具体实施方式
图1是本发明的一个典型应用的流程图。图1表示了本发明的文字信息提示系统进行一次成功的文字信息提示的过程。首先,在步骤S01中用户针对例如基于语音技术的人机交互界面中遇到的有疑问的文字,输入要查询的文字,该输入可以通过语音输入、键盘/鼠标输入、手写屏输入等任何公知手段进行。在步骤S02中,本发明的文字信息提示系统或者文字提示信息计算装置通过对输入文字的分析计算,获得文字提示信息。在步骤S03中,产生的最优的文字提示信息被输出给用户。在步骤S04中,根据用户的反馈对文字提示信息是否有效进行判断。在用户通过步骤S03中输出的文字提示信息,准确清楚地了解了所要查询的文字的情况下,判断为该文字提示信息有效(步骤S04中“是”),进而在步骤S05中根据此次文字提示信息有效的情况对系统进行反馈更新,在步骤S06中结束此次文字信息提示。相反,在步骤S04中,若判断为文字提示信息无效(步骤S04中“否”),例如若用户在获取了步骤S03中输出的文字提示信息后仍然不能产生共鸣、对所查询的文字仍然不清楚的情况下,则返回步骤S02和S03,继续输出次优的下一文字提示信息,直到输出的文字提示信息被判断为有效为止。在极端的情况下也存在对所有的文字提示信息均判断为无效的可能,这时作为提示失败的流程在所产生的文字提示信息全部输出完毕时结束。
图2是根据本发明一个实施方式的文字信息提示系统的框图。本发明的文字信息提示系统,对于要查询的文字,生成并输出与该文字有关的、用于对该文字进行补充说明和提示的文字提示信息。该系统包括:输入装置101,输入要查询的文字,并且也可以进行如后所述的各种算法配置的设定;文字提示信息计算装置102,对通过输入装置101输入的文字进行分析、计算并产生该文字的文字提示信息;输出装置104,输出文字提示信息计算装置102所产生的文字提示信息。
其中,文字提示信息计算装置102进一步包括:多个文字提示信息产生单元,分别计算并产生不同类型的文字提示信息,在图2所示的实施方式中示出了4个文字提示信息产生单元,即:类型1提示信息产生单元1021、类型2提示信息产生单元1022、类型3提示信息产生单元1023、类型4提示信息产生单元1024,这里示出4个文字提示信息产生单元只是一个具体实例,本发明的范围当然不限于此。类型1~4提示信息产生单元分别产生类型1~4的文字提示信息,关于文字提示信息产生单元的细节将在后文中进一步说明;提示信息选择单元1025,从上述各文字提示信息产生单元所产生的不同类型的文字提示信息中,选择文字提示信息,并输出给输出装置104。
对于输入的要查询的文字,各个文字提示信息产生单元,即:类型1提示信息产生单元1021、类型2提示信息产生单元1022、类型3提示信息产生单元1023、类型4提示信息产生单元1024分别产生了类型1的文字提示信息、类型2的文字提示信息、类型3的文字提示信息和类型4的文字提示信息,而提示信息选择单元1025对所产生的各个文字提示信息进行排序,并选择排序在最前的文字提示信息输出给输出装置,作为整个系统的输出提示给用户。如果所输出的文字提示信息被判断为无效(附图1的步骤S04:否),提示信息选择单元1025继续按顺序选择排序在前的文字提示信息,并依次输出,直至输出的文字提示信息被判断为有效为止。
上述提示信息选择单元1025所进行的排序,例如可以通过如下方法进行:对各个文字提示信息产生单元分配序号,例如类型1提示信息产生单元1021的序号为1、类型2提示信息产生单元1022的序号为2、类型3提示信息产生单元1023的序号为3、类型4提示信息产生单元1024的序号为4,按照上述序号的先后顺序,对具有该序号的文字提示信息产生单元产生的文字提示信息进行相应的排序。就是说,可以是,序号为1的类型1提示信息产生单元1021所产生的类型1的文字提示信息排序为最前,序号为2的类型2提示信息产生单元1022所产生的类型2的文字提示信息排序为其次,序号为3的类型3提示信息产生单元1023所产生的类型3的文字提示信息排序为再次,序号为4的类型4提示信息产生单元1024所产生的类型4的文字提示信息排序为最后。
这样,根据本发明的文字信息提示系统,可以将类型1~4提示信息产生单元基于输入文字而产生的文字提示信息进行排序后依次输出,直到输出的文字提示信息有效为止。
图3是根据本发明另一实施方式的文字信息提示系统的框图。与图2所示的实施方式相比,图3所示的文字信息提示系统中,还包括反馈装置103和统计信息存储装置106。在如附图1的步骤S04中对所输出的文字提示信息是否有效进行判断的情况下,允许用户通过反馈装置103对文字提示信息是否有效进行反馈。反馈装置103将用户的反馈信息传递给统计信息存储装置106,在统计信息存储装置106中对反馈信息进行统计处理,并根据统计处理结果对各文字提示信息产生单元的排序进行相应的更新。
例如,对于某一类型的文字提示信息,统计信息存储装置106对反馈装置103反馈该类型的文字提示信息为有效的次数进行统计,当有效次数累计到一定程度时,可以使对应的该类型的文字提示信息产生单元的排序提前,这样,在今后的输出中排序提前了的该文字提示信息产生单元所产生的文字提示信息,与反馈统计更新之前相比,将优先输出。这样,通过上述反馈装置103和统计信息存储装置106的动作,本发明的系统可以进行适应了使用者使用习惯和使用经历的文字信息提示,从而实现了自适应的文字信息提示。
关于反馈装置103和统计信息存储装置106所进行的反馈、统计、更新的动作,上文中只是给出了一个具体的例子,本发明的范围当然不限于此。例如,除了对次数进行简单的累加统计之外,当然也可以根据情况实施加权处理等,从而实现更优化的自适应输出。只要是反馈装置允许用户对输出装置输出的文字提示信息进行关于该文字提示信息是否有效的反馈,并将用户的反馈信息传递给统计信息存储装置,统计信息存储装置进一步对反馈信息进行统计处理,并根据统计处理结果对各文字提示信息产生单元的排序进行更新,从而实现根据反馈结果对文字提示信息的排序进行更新实现自适应输出,都可以适用于本发明。
反馈装置103和统计信息存储装置106的进一步细节将在后文中描述。
另外,图3中示出的实施方式是将反馈装置103和统计信息存储装置106形成为独立于文字提示信息计算装置102而存在的部件,但是本发明的范围不限于此,显然,反馈装置103和统计信息存储装置106也可以作为文字提示信息计算装置102中包含的部件而存在。这种情况下,文字提示信息计算装置102包括:多个文字提示信息产生单元(1021~1024)、提示信息选择单元1025、反馈单元103、统计信息存储单元106,其中反馈单元103和统计信息存储单元106能实现上述反馈、统计更新的功能。
图4是根据本发明又一实施方式的文字信息提示系统的框图。与图2和图3所示的实施方式相比,图4所示的文字信息提示系统中,在文字提示信息计算装置102中还具备作为迭代单元的迭代类型提示信息产生单元1026,该迭代单元1026进行文字提示信息的迭代处理,所谓迭代处理是指:有时不仅仅是从输入装置101输入的要查询的文字需要文字提示信息,经过系统产生的文字提示信息中的文字本身也需要提供进一步的文字提示信息,这时,可以提取要输出给输出装置104的文字提示信息中的文字,将所提取的文字提供给各文字提示信息产生单元1021~1024,再次计算其各自的文字提示信息,并将再次计算出的文字提示信息也输出给输出装置,进而提供给用户。
图4中仅示意性地示出了包含在文字提示信息计算装置102中的迭代单元1026,但并未示出其具体的内部结构。迭代单元1026的具体的实现方式可以是例如接受用户输入的进行迭代处理的指示,根据指示提取提示信息选择单元1025输出的文字提示信息中的文字,并将其再次输入至各个提示信息产生单元。只要是能够实现上述迭代处理的结构均可适用于本发明。
这样,通过进行上述文字提示信息的迭代处理,可以对文字提示信息中的部分文字进一步提供文字提示信息,这在文字提示信息中存在使用者难以区分的文字、或者存在仅通过该汉字的读音很难让使用者直接产生共鸣的文字时特别有用,此时可以通过迭代处理,对该文字提示信息中的文字提供文字提示信息来进行进一步的补充说明,确保可以提供确实有效的文字提示信息,使用户可以更清楚地理解。
当然,这种迭代处理的次数不限于1次,可以根据实际需要进行预定次数的迭代处理,例如可以是通过用户输入来指示迭代单元进行1次以上的迭代处理,也可以预先设定迭代次数,根据该预先设定的迭代次数,进行设定次数的迭代处理。
以上说明了本发明的几个基本的实施方式,本发明当然不限于上述实施方式,例如,本发明也可以是上述文字信息提示系统中的文字提示信息计算装置,其对输入的文字进行分析、计算并输出与该文字有关的、用于对该文字进行补充说明和提示的文字提示信息,该文字提示信息计算装置包括:多个文字提示信息产生单元(1021~1024)和提示信息选择单元1025,根据另一个实施方式,该文字提示信息计算装置也可以包括上述反馈单元和统计信息存储单元,或者也可以具备上述迭代单元。
另外,本发明的上述各实施方式中,要查询的文字可以是汉字,相应地,汉字的文字提示信息可以包括:汉字所在词的信息、汉字本身的结构信息和汉字所具有的语义信息中的至少一个。本发明当然不限于此,只要是具备如汉字这样的单个文字具有读音、结构、所在词等特性的文字,均可以适用本发明的技术方案。例如,本发明的原理同样适用于日语和韩语等。
【实施例】
下面说明本发明的具体实施例。
首先说明本发明的硬件结构的具体实施例。
图5是本发明的一个实施例的硬件结构图。该附图中所包含的各个部分,仅仅是为了便于在硬件上实现而进行的划分,与图2~图4中的结构划分可能并不完全一致,但这并不代表结构上的矛盾,根据本发明实施方式的文字信息提示系统和文字提示信息产生装置的结构在图2~图4中记载。
图5中,整个装置由五部分组成,首先是核心处理单元(100),进行文本分析,产生各种汉字提示信息,自适应选择最合适提示信息。第二是交互单元(201)可以从输入装置(101)得到数据,并且可以把数据传递给输出装置(104)。第三是用户信息存储装置(301),主要储存的是个人用户的相关信息。第四是投票单元(401),通过各个级别的投票完成一些必要信息的打分。第五是外部信息存储单元(501),主要存放一些外部的字典等信息。其中核心处理单元最为重要,核心处理单元又细分为五个部分:算法处理单元(102),相当于上述文字提示信息计算装置,主要进行各类型汉字提示信息的最优计算;反馈单元(103),主要进行各种反馈因子的计算;缓存单元(105),提供短期用户习惯信息;核心统计信息存储装置(106),相当于上述统计信息存储装置,提供不可更改的预存统计信息。
下面具体说明作为本发明的核心部分的文字提示信息计算装置102中所包括的各个文字提示信息产生单元(即:类型1提示信息产生单元1021、类型2提示信息产生单元1022、类型3提示信息产生单元1023、类型4提示信息产生单元1024)的详细操作过程。
这里需要说明的是,在初始状态下,可以是类型1~4提示信息产生单元1021~1024的初始序号分别为1~4,也就是说,类型1~4提示信息产生单元1021~1024的初始排序即为其自然的默认排序,即,1021在最前、1022其次、1023再次、1024在最后。
另外,上文中说明了提示信息选择单元1025对各个文字提示信息产生单元(1021~1024)产生的不同类型的文字提示信息进行排序,依次选择并输出排序在前的文字提示信息的方式,但是在下面的说明中,在每一个文字提示信息产生单元中,同样也可以根据规则对要查询的文字产生相同类型的多个文字提示信息,提示信息选择单元1025也可以对这些由同一文字提示信息产生单元产生的相同类型的多个文字提示信息进行排序,输出排序在前的文字提示信息作为文字提示信息计算装置计算的结果。
首先说明类型1提示信息产生单元1021的细节。
图6a是类型1提示信息产生单元(1021)的工作原理图,是根据文字所在词的信息来进行提示的流程图。
在图6a所示的实施例中,考虑在与文字所在词有关的信息中,有5个因子会影响到最后选择哪个词来提示当前字。定义这种影响为权重,给出公式如下:
类型1权重=W(自适应性因子,多音字,频率,长度,词性)(式1)
其中:
自适应因子:指当前提示和类型的自适应权重
多音字:指要查询的文字是否是多音字,这个字其他音的词更具有代表性
频率:指包含当前文字的词出现的频率
长度:包含当前文字的词的长度
词性:包含当前文字的词的词性
具体实现方案可以是:首先在统计信息存储装置(106)中找到包含当前汉字所有词的记录,然后按顺序根据上述因子按降序排序所有记录,最后最优结果就排序在最前,出现在最上方。
图6b是类型1提示信息产生单元(1021)的一个具体统计记录表格。图中以“都(dou1)”为例。首先按自适应因子排序。
这里要说明的是,本发明的文字信息提示系统正是通过该自适应因子来实现各个文字提示信息产生单元以及其各自产生的文字提示信息的排序的更新,就是说,上述反馈、统计更新的功能是通过该自适应因子来实现的。在初始状态下,各个自适应因子为0,因此各个文字提示信息产生单元的排序及各个文字提示信息的排序均为默认排序。通过使用过程中按照规则对自适应因子进行计算、更新,再按照更新后的自适应因子进行权重的计算,实现了各个文字提示信息产生单元以及各个文字提示信息的排序的更新。这一点同样适用于以下对于类型2~4提示信息产生单元(1022~1024)中的自适应因子。自适应因子的计算和规则具体见后文中的与反馈单元(103)有关的部分。
在按照自适应因子排序之后,按照多音字-词排序,如果属于多音字的词则标记为1,否则为0。例如需要对“都(dou1)”提示:都市的都(du1)属于都(dou1)的多音字,因此“都市”属于多音字-词,标记为1。然后按照频率排序,这里的频率由核心统计信息存储装置(图13b)查得,图11b中这个词频需要从外部信息存储装置(501)中的语料中进行统计,例如在2000年人民日报中所有文本中统计处“都市”出现的次数与总数之比,。然后根据图13b查得词的长度进行排序,越是长的词越特别,也就是越容易产生共鸣。最后按照词性的分数进行降序排序,而每个词性的分数值具体打分表见图6c。
图6c是词性打分表。本发明可以采取的方案是,根据北大计算语言研究所《现代汉语语料库词语切分和词性标注规范》将所有词归入33种词性(去除标点符号以及5种语素)中,表中是将33种词性分数的结果,此分数来自于核心信息存储装置(106)中的预存词性打分信息表和用户信息存储装置(301)。而用户信息存储装置(301)中的词性打分信息表来自投票单元(401),打分可以设置任意分数级(作为算法配置,可以通过输入装置101进行设置),分数越高则表示该词性的词越具有直观含义。打分在投票单元(401)中进行,且打分原则在投票单元(401)中详细描述。
下面说明类型2提示信息产生单元1022的细节。
图7a是类型2提示信息产生单元(1022)的工作原理图,是根据文字的所有结构信息来提示汉字的流程图。
在图7a所示的本发明的实施例中,考虑在汉字的所有结构信息中有4种因子会影响到最后选择哪种结构组成来代表当前字的可能性。定义这种影响为权重,给出公式如下:
类型2权重=W(自适应性因子,语言习惯,结构数目,发音结构比例)(式2)
其中:
自适应因子:指当前提示和类型的自适应权重
语言习惯:用户语言习惯中对结构信息的偏好修正
结构数目:分离出来的结构的数目,分离出来的部首的数目越少越好,越容易成为有效的文字提示信息
发音结构比例:分离出来的结构中可以发音的比例
具体实现方案是:首先在统计信息存储装置(106)中找到当前汉字的所有结构组成,然后按顺序根据上述因子按降序排序(结构数目按升序)所有记录,最后最优结果就出现在最上方。
图7b是类型2提示信息产生单元(1022)的一个具体统计记录表格。图中以“章”为例。表中的记录是当前需要提示的汉字的所有组成方式,图中以“章”与“彬”为例,章的组成方式有“立早章”,“音十章”,“立日十章”,然后根据上面提出的各个因子对这些组成方式进行排序,其中第一行就是最优结果。这些组成方式的获得需要根据核心统计信息存储装置(图13a)计算,根据图13a可以查询到每个汉字的所有部首,然后在这些部首的基础上找到每个汉字所有的结构组成方式。例如汉字“章”,根据图13a可以查到有这些部首“亠;丷;一;日;十”。然后根据这些部首在图131a查那些汉字包含了这些部首。例如查到“立”包含部首“亠;丷;一”,那么再使用图象匹配算法在“章”里能否找到“立”,然后再“章”字剩下的部首里面也就是“日;十”中使用类似寻找“立”的方法再找到“早”,那么此时“章”由两个结构组成,这样就获得了一种“章”的结构组成方式。与此一样可以计算出“章”的所有组成方式。得到了所有的组成方式后,首先按自适应因子排序,自适应因子的计算具体见反馈单元(103)。然后按照语言习惯进行降序排序,语言习惯表示结构拆分的语言偏好,代表了语言本身的特点,作为算法配置,可以由用户本人例如通过输入装置(101)进行设置,与语言级反馈有所不同。在一般的习惯中,部首的分离采用先左右后上下,贪婪优先的策略。例如“章”,系统会根据原则选择“音十章”,但是某用户认为“立早章”比“音十章”更常用并且也可以通过输入装置(101)进行设置,因此这时语言习惯的值从0(不设置)改设为1(有设置)。然后按照结构数目进行升序排序。根据当前结构组成方式,例如此时“章”由“立早”组成,这里的结构数目就填写2。最后是发音结构比例的降序排序,根据之前算汉字结构组成方式的过程可以得到的组成“章”的每个结构,在结构评价表(图8c)和核心统计信息存储装置中字记录表(图13a)中查找这些结构的发音性。结构评价表(图8c)中的结构发音根据发音列来决定,而结构若能在字记录表(图13a)找到则表示该结构可以发音。在组成“章”的某种组成方式中所有结构中可以发音结构的数目和所有结构数目的比值就是发音结构比例的值。
图8a是类型3提示信息产生单元(1023)的工作原理图,是根据文字的首要结构信息来提示汉字的流程图。
在图8a所示的本发明的实施例中,考虑在汉字的结构信息中有4类因子会影响到最后选择哪个结构最具有代表性。定义这种影响为权重,给出公式如下:
类型3权重=W(自适应性因子,语言习惯,结构发音性,结构复杂性)(式3)
其中:
自适应因子:指当前提示和类型的自适应权重
语言习惯:用户语言习惯中对首选结构信息的偏好修正
结构发音性:所选结构能否发音
结构复杂性:所选结构复杂性,越复杂,其值越大
具体实现方案是:首先在统计信息存储装置(106)中找到当前汉字包含的所有结构,然后按顺序根据上述因子按降序排序(结构复杂性按升序)所有记录,最后最优结果就出现在最上方。
图8b是类型3提示信息产生单元(1023)的一个具体统计记录表格。表中的记录是当前汉字的所有首要结构,根据上述各个因子对这些结构进行排序,然后表中第一行就是最优结果。图中以“徐”与“章”为例。根据核心统计信息存储装置(图13a),可以得到“徐”的所有组成部首“彳;人;二;小;”,根据这些部首中的“人;二;小;”可以继续在图11a中查到“余”字也是由“人;二;小;”构成,那么“余”就是“徐”的一个结构。因此徐的所有结构有“彳;人;二;小;余”。根据首要结构都在边缘上的原则(也就是首要结构或者在字最左边,或者最右边,或者最上边,或者最下边),可以得到“徐”的首要结构有两条“彳;余”。然后根据下述查询发音性的过程中,可以将“彳;余”转变为“双人徐;余字边的徐”这两条记录。以此两条首要结构记录,首先按自适应因子排序,自适应因子的计算具体见反馈单元(103)。然后按照语言习惯进行降序排序,此处语言习惯的计算方式与类型2中的语言习惯一样;然后按发音性进行降序,根据结构评价表(图8c)和核心统计信息存储装置(图13a)所得,此处结构可以发音则值为1,不可以发音则值为0;最后通过复杂性的升序排序得到最后的有序结果,其中复杂性也是通过图8c的结构评价表和核心统计信息存储装置(图13a)所得。
图8c是结构评价表,本发明可以采取的方案是,根据《汉字统一部首表(草案)》(1983年)对所有结构进行复杂性评价后的结果,此结果来自于核心信息存储装置(106)和用户信息存储装置(301)。其中部首的发音由用户根据自己的习惯可以通过输入装置(101)设置。可以发音的部首在发音列里填上相应汉字,不可以发音的填上无。对于用户信息存储装置(301)中部首的复杂性由投票单元(401)对每个结构给出复杂性投票打分,复杂性打分可以设置任意分数级(作为算法配置,可以通过输入装置101设置),具体细节在投票单元(401)描述。
图9a是类型4提示信息产生单元(1024)的工作原理图,是根据文字的语义信息来提示汉字的流程图。
在图9a所示的本发明的实施例中,考虑在汉字的语义信息中有3类因子会影响到最后选择哪种语义最具有代表性。定义这种影响为权重,给出公式如下:
类型4权重=W(自适应性因子,单字有意义性,公共领域含义频率)(式4)
其中:
自适应因子:指当前提示和类型的自适应权重
单字有意义性:当前汉字本身是否具有含义
公共领域含义比率:当前汉字的当前含义在公共领域中的出现的比率。例如在人民日报2000年语料中,所有表示方向的东出现的次数与东的总次数之比。
具体实现方案是:首先在统计信息存储装置(106)中找到当前汉字包含的所有语义,然后按顺序根据上述因子按降序排序所有记录,最后最优结果就出现在最上方。
图9b是类型4提示信息产生单元(1024)的一个具体统计记录表格。表中记录是当前汉字所有的公共领域含义,图中以“东”与“章”为例,首先在核心统计信息存储装置(图13a)中查到“东”字的所有公共领域含义“方向;主人”。以此两条记录为基础,首先按自适应因子排序,自适应因子的计算具体见反馈单元(103)。然后排序单字有意义性,单字有意义则值为1,无意义则值为0,单字是否有意义则根据核心统计信息存储装置(图13a)查询得到结果,查到表示有意义,查不到表示无意义,这样可以使得有具体含义的东在上面出现;后进行含义频率排序,得到最优结果,这里的含义频率就是根据核心统计信息存储装置(图13a)中的公共领域频率查得结果。
以上给出了分别以文字所在词的信息、文字的所有结构信息、文字的首要结构信息、和文字的语义信息为类型1、类型2、类型3、类型4的四个提示信息产生单元的具体实施例。本发明的范围当然不限于此,只要是能够提供不同类型的文字提示信息的类型提示信息决策方式,也可以是除上述之外的其他类型的文字提示信息,文字提示信息及其产生单元的种类也可以不是四个,例如可以只包含文字的语义信息这一种类型,可以是还包含文字所在词的信息、文字的所有结构信息、文字的首要结构信息中的至少一个类型,或者也可以是包括四个以上的更多类型。
下面说明本发明的提示信息选择单元1025的具体实施例。
图10a是混合类型信息产生单元(1025)——即提示信息选择单元的工作原理图,即根据词的所有可用类型信息来提示汉字的流程图。在混合类型信息产生单元中,所有当前字的可用类型的自适应因子(按具体条目不存在计算)按照降序排序即可得到最后的类型结果,然后再按照该类型内部顺序输出。当4张反馈信息表为空的时候则按type1到type4进行排序,因为type1到type4就是按照人们的日常习惯设计的。
图10b是混合类型信息产生单元(1025)的一个具体统计记录表格。图中以“章”为例。按自适应因子排序,自适应因子的计算具体见反馈单元(103)。而类型的反馈因子就是本类型中所有记录的反馈因子的最小值,例如type1的反馈因子就是“章”的type1所有记录中反馈因子的最小值。
下面说明本发明的迭代单元1026的具体实施例。
图11是迭代类型信息产生单元(1026)、即迭代单元的工作原理图,即根据词的所有可用类型信息多次提示汉字的流程图。在迭代类型信息决策中,通过设置最大迭代次数来确定提示次数,每次迭代都使用当前迭代元的混合类型信息中最佳类型。所谓迭代元就是当前要提示的对象。例如,设置迭代次数为1,对于“张”的提示为:弓长张弓箭的弓长短的长。第一迭代元为张,第二迭代元有两个“弓”和“长”。
下面说明本发明的反馈装置和统计信息存储装置的具体实施例。
图12a是反馈单元(103)(反馈装置)的工作原理图。本发明中反馈机制分为三个级别:单用户级,群组级,语言级。在单用户级中又分为长期和短期反馈。当用户确定理解了上次的提示信息后,反馈过程开始。首先进行单用户的反馈信息更新,单用户的反馈信息主要储存在缓存(105)和用户信息存储装置(301)中。因此单用户的反馈更新分为两部分:短期信息更新(缓存105单元)。长期信息更新(用户信息存储装置301单元)。缓存单元中存放固定数目的最近使用的记录,格式如图12b中所示,而用户信息存储装置则储存从第一次启动系统到目前为止用户所有反馈的记录,格式如图12b所示。不论是缓存单元还是用户信息存储装置,反馈信息更新包括类型更新和字符更新,类型更新指上次用户接收并理解的类型是哪一个,调节这个类型的当前频率(加1)并更新当前的最佳类型;字符更新是指上次用户接收并理解的汉字和类型是哪个,调节这个汉字的这个类型的当前频率(加1)并更新当前汉字的最佳类型。更新最佳类型和最佳字符的方法使用最大原则,哪个类型频率最大就取哪个类型为最佳类型。群组自适应和语言自适应都包含了类型更新和字符更新,其原则也是最大原则。只不过群组更新是在一个用户群的范围内,例如上海用户,北京用户;语言更新的范围是在一种语言的范围内,例如中文,日文,韩文。最后在单用户自适应中,长期信息更新会有长期信息的衰减计算,这样即使有了错误的反馈,也不会对系统有坏的影响,因为错误的次数最终一定不会比正确的次数多,只要改正,过一段时间,错误信息对整个系统就没有影响。通过设定衰减周期(例如一个月),那么系统就会在每一个衰减周期,反向调节这些长期信息(减1)。
图12b是反馈信息表在各个级别的一个片断。根据反馈单元的更新,各个级别都会产生相应的反馈信息表,格式如图12b所示。其中图12b中表I是语言级的反馈信息,图12b中表II是群组级的反馈信息,图12b中表III是单用户中用户信息存储装置的反馈信息,图12b中表IV是单用户中缓存单元的反馈信息。所有的反馈信息分为两类:一是字符信息,即对于某汉字的最佳类型是什么,并且在这个类型中已经出现过的记录;二是类型信息,即在当前表中哪种类型最佳。每个表中每条记录都必须是唯一的,并且每个表中只有一个类型是最佳的。表中汉字的最佳类型使用最大原则进行计算,例如在多次反馈中,张的类型2被接收10次,类型1被接收5次,类型3被接收3次,类型4被接收4次。那么根据最大原则,张的最佳类型就是类型2。有了反馈信息表就可以按照表进行反馈因子的计算,当前汉字的当前类型的当前记录的反馈因子为:
1)当前汉字当前类型出现在某个表中:
反馈因子=区别常数+表号*2-1+当前记录是否出现(出现=1;否则=0)
其中,区别常数为4,其目的在使反馈因子值不冲突。例如“圆-type4-形状”的反馈因子就是区别常数+4*2-1(表号为IV)+1(“形状”出现在表中)=12;而“圆-type4-姓”的反馈因子就是区别常数+4*2-1(表号为IV)+0(“姓”未出现在表中)=11。
2)当前汉字当前类型未出现在某个表中,但是当前类型出现某表中:
反馈因子=表号
例如:“无-type1”的反馈因子就是4(表号为IV),“无-type2”的反馈因子就是0(没有表的最佳类型是2)。
在反馈因子的计算中采用取大原则,即某汉字的某类型具有多个反馈因子则采用最大的反馈因子。根据以上公式,反馈因子的最大值为12,最小信为0。
图12c是反馈信息表在以图12b未反馈前信息,经过四种类型的反馈确认之后的结果图。图12c-1是在经过“章-type1-章鱼”确认后的结果。图12c-2是在经过“章-type2-立早”确认后的结果。图12c-3是在经过“章-type3-立字头”确认后的结果。图12c-4是在经过“章-type4-文献”确认后的结果。
图12d是反馈信息表的各个状态图。图12b中的四种表中所有表初始时都是空表。在用户时候使用过程中,图12b的四种表在不断更新中。这四种表内部形式都一样,仅仅是这些表的覆盖范围不同而分成四个部分。需要说明的是,语言级反馈信息表和群组级反馈信息表适用于多用户的,每种语言有一种语言级反馈信息表并且每个群组有一个群组反馈信息表(可以放置在服务器)。用户信息表和缓存反馈信息表适用于单用户,每个用户都会有不同的这两张表(可以放置在终端上)。因此这里仅仅以用户信息表的状态流程为例,其他表也类似。如图,每个方框代表一次或多次反馈后用户信息表的结果。每个框中有这样的信息“章type2-立早(2);音十(1)”。其中“章”表示需要提示的汉字,“*”代表后面的type是章的最佳type,这里按照反馈的最大次数所在的类型作为最佳类型,“type2”代表当前类型是type2,“立早”,“音十”分别表示type2中的两种可能。右上角的“(2)”代表用户反馈的次数,这些次数从左到右按降序排列。每个框中还有这样的信息“Type2 best”,这表明在这张表中,所有记录中type2的纪录出现的次数做多。在图12d-1反映的是用户第一次反馈后的结果,“章type2立早”被加入了表中,因为第一次加入,因此立早的次数为1,标注为“立早(1)”,因为目前表中的“章”只有一个type纪录,因此章的最佳type就是type2,标注为“章*type2”,此时表中不管什么字的所有type也只有type2,因此“type2 best”。图12d-2是另外两次反馈之后的结果,从图中可以推测出这两次反馈都是“章type2音十”,因为图中“章”后面多了“音十(2)”的内容。图12d-3中用户又反馈了4次“章type1章鱼”,因此用户信息表中就多了一行“章type1-章鱼(4)”,此时发现所有章的反馈中“章鱼”的次数最多是4,因此章的最佳type就是章鱼属于的type,也即是type1。此时在用户信息表中,type1的总次数是4,而type2的总次数是2+1也就是3,因此“type1 best”。在图12d-4中,由于用户信息存储装置的衰减,在一个衰减周期之后,用户信息表中所有记录的次数减1,其中“立早(1)”就变成了“立早(0)”,从而把立早在章的type2中去除。图12d-5中,用户反馈了12次的“李type2-木子”,因此李的最佳type就是type2,并且用户信息表的最佳type也变成了type2。
在本发明中,用户可以通过输入装置101进行算法配置,包括选择哪些类型的提示信息,例如用户可以设置系统只支持类型1和类型2;是否选择迭代类型提示,最大迭代数目,例如使用迭代,并且最大迭代数目为1,那么系统的输出将类似“弓长张弓箭的弓长度的长”;个人语言习惯输入,主要指在类型2和类型3中的“习惯”,因子,例如可以设置“章”的个人习惯是“音十章”;打分分级主要指词性分数和结构复杂性打分中可以设置的打分级别,例如词性分数级别设置为4,那么词性分数就会在1到4分间波动;最后用户要设置结构的发音,例如设置“宀”的发音为“宝盖”。
缓存单元(105)和用户信息存储装置(301)中存放了单用户级的反馈信息,其中缓存单元(105)只包含固定数目的记录,采用队列机制,先进先出,保存了短期反馈信息。用户信息存储装置(301)没有记录限制,但有衰减机制,保存了长期反馈信息,其中数据格式如图12b表IV和图12b表III。此外在用户信息存储装置(301)中还存放了用户可更改的词性分数表(图6c)和结构评价表(图8c)。
核心统计信息存储装置(106)存放了用于四种类型提示信息的统计信息,包括词频,词长,词性,结构部首等。大致核心统计信息存储装置中有四类数据记录:一,结构记录,存放了相关结构的发音信息,预存的不可更改的打分信息(图8c),而在用户信息存储装置(301)中存有用户可以更改的打分信息;二,词性记录,存放了各词性的预存的不可更改的打分信息(图6c),而在用户信息存储装置(301)中存有用户可以更改的打分信息;三,字记录,存放了字中包含什么结构,字的公共领域含义及其频率(图13a),其中字所属词只要查询外部信息存储装置(501)中的外部字典就可以得到,字所属的含义在外部信息存储装置(501)中的外部字典中也可以得到,所属含义的频率在外部信息存储装置(501)的语料库中可以训练得到,字所属的所有结构根据《汉字统一部首表(草案)》和当前字进行图像匹配可以得到;四,词记录,存放了词的词频,词长(图13b),其中词的词频在外部信息存储装置(501)中的语料库里可以训练得到,词长可以直接计算得到,词性按照北大计算语言研究所《现代汉语语料库词语切分和词性标注规范》将所有词归入33种词性。
交互单元(201)主要负责系统与外界的输入输出转换,不论是外界的语音输入或文本输入,最后都转变成统一的格式传递给核心算法单元。同样,核心算法单元的输出结果,根据外界要求也可以任意转换为语音或文本信息。即交互单元(201)通过外挂语音识别或语音合成装置来实现系统与外界的交互。
图14是投票单元(401)的工作原理图。投票单元(401)主要负责对词性,结构等属性进行各级别的联合打分。首先在各张表中统计出所有要打分的项在各表中的出现次数。例如要对词性表(图6c)中的分数属性打分,则分别在图12b中表I~表IV的各个表中统计各种词性(如图6c)出现的次数。分别乘以表号(例如“用户信息表”的表号为III也就是3)作为加权,计算出所有词性在图12b的表I~表IV的各个表中的总次数加1(若没有出现的词性则把总次数计为1)。对其中最大的总次数进行取对数,以此为最大值。然后根据需要打分的级数(可以通过输入装置输入)分成不同的对数值区域,把其他的对数值归入这些区域,每个区域就是一个分数。同样对于结构的复杂性也是如此打分,即打分的项是图8c中的复杂性,打分方式如上所述。
外部信息存储装置(501)主要存放了一些字典信息,语料信息等。字典信息里包含了字的含义,词的词性等信息。例如:中国:国家名,名词等。语料信息包含一些进行了词性标注的语料。例如:“19980101-01-001-002/m中共中央/nt总书记/n、/w国家/n主席/n江/nr泽民/nr”(北大计算语言研究所的现代汉语语料库),用来以此训练出词语出现的频率等。
下面说明本发明的文字信息提示系统的一个具体操作例。在具体操作例中,可以分成两种情况,一个是系统初始化时的第一次使用,另一个是非初始化时的使用情况。当系统初始化时的第一次使用时。首先用户通过输入装置101配置各个参数,这里假设用户除了自定义了结构发音,其他保持默认值。然后用户通过交互单元(201)对系统提出一个需要提示的汉字“章”,因为默认是使用四种类型进行混合排序,而混合类型信息产生单元(图10a)需要根据反馈单元(103)计算“章”的反馈因子。由于系统刚刚初始化,“章”四种类型的反馈因子都是0,因此“章”四种类型就按照默认顺序排列,而默认顺序就是类型一到类型四。然后在每种类型中计算每种可能的优先顺序,首先类型1文字提示信息产生单元(1021)使用词的信息来提示汉字,也就是对所有包含“章”的词进行优先选择,其结果与图6b中类型1决策统计信息表---“章”相似。那么图6b中类型1决策统计信息表---“章”就是系统提示“章”类型一时的输出顺序。根据默认顺序,然后类型2文字提示信息产生单元(1022)使用字的所有结构信息来提示汉字,也就是在各种组成“章”的组成方式中进行优先选择,其结果与图7b中类型2决策统计信息表---“章”相似。那么图7b中类型2决策统计信息表---“章”就是系统提示“章”类型二时的输出顺序。根据默认顺序,接着是类型3文字提示信息产生单元(1023)使用汉字的最显著结构信息来提示汉字,也就是在各种组成“章”的首要结构(显著结构)中进行优先选择,其结果与图8b中类型3决策统计信息表---“章”相似。那么图8b中类型2决策统计信息表---“章”就是系统提示“章”类型三时的输出顺序。根据默认顺序,最后是类型4文字提示信息产生单元(1024)使用语义来提示汉字,也就是在各种组成“章”的语义中进行优先选择,其结果与图9b中类型4决策统计信息表---“章”相似。那么图9b中类型4决策统计信息表---“章”就是系统提示“章”类型四时的输出顺序。在计算完所有类型的所有记录的优先顺序后,按照默认顺序输出给用户。如果用户不明白这次的输出,那么系统继续给出下一个优先级的结果,直到用户明白。通过反馈单元(103)更新反馈因子。假设用户确认(明白)了“章”的类型1信息“章鱼的章”,反馈单元分别更新图12b中的表I到表IV,其更新方式与图12c-1一样。假设用户确认(明白)了“章”的类型2信息“立早章”,反馈单元分别更新图12b中的表I到表IV,其更新方式与图12c-2一样。假设用户确认(明白)了“章”的类型3信息“立字头的章”,反馈单元分别更新图12b中的表I到表IV,其更新方式与图12c-3一样。假设用户确认(明白)了“章”的类型4信息“文献”,反馈单元分别更新图12b中的表I到表IV,其更新方式与图12c-4一样。更新完反馈信息表后,本次流程结束。非初始化后第一次流程与初始化后第一次的流程不同主要在于反馈因子的更新更复杂,反馈因子更新的所有可能在图12d中已经详细描述。
根据本发明的技术方案,能够将不同类型的提示信息加以综合运用,从而在基于语音技术的人机交互方式中,对输出的文字提供有效的提示信息来进行补充说明,使得使用者能迅速、准确、清楚地明白所输出的文字。本发明可以应用于车载导航系统,语言学习系统,人机交互系统,机器翻译系统等。

Claims (14)

1.一种文字信息提示系统,对于要查询的文字,生成并输出与该文字有关的、用于对该文字进行补充说明和提示的文字提示信息,其特征在于,该系统包括:
输入装置,输入要查询的文字;
文字提示信息计算装置,对上述输入装置所输入的文字进行分析、计算并产生该文字的文字提示信息;以及
输出装置,输出上述文字提示信息计算装置所产生的文字提示信息,
上述文字提示信息计算装置包括:
多个文字提示信息产生单元,分别计算并产生上述输入的文字的不同类型的文字提示信息;
提示信息选择单元,从各文字提示信息产生单元所产生的不同类型的文字提示信息中选择文字提示信息,并输出给输出装置,
上述提示信息选择单元对各个文字提示信息产生单元产生的文字提示信息进行排序,依次选择并输出排序后的文字提示信息,
各个文字提示信息产生单元被分配有序号,上述提示信息选择单元根据各个文字提示信息产生单元所具有的序号,对其分别产生的文字提示信息进行相应的排序。
2.如权利要求1所述的文字信息提示系统,其特征在于,
该系统还具备反馈装置和统计信息存储装置,
上述反馈装置允许用户对上述输出装置输出的文字提示信息进行关于该文字提示信息是否有效的反馈,并将用户的反馈信息传递给统计信息存储装置;
上述统计信息存储装置对上述反馈信息进行统计处理,并根据统计处理结果对上述各文字提示信息产生单元的序号进行更新。
3.如权利要求1所述的文字信息提示系统,其特征在于,
上述文字提示信息计算装置还具备迭代单元,该迭代单元进行文字提示信息的迭代处理,该迭代处理为:提取要输出给上述输出装置的文字提示信息中的文字,将所提取的文字提供给上述各文字提示信息产生单元,再次计算文字提示信息,并将再次计算出的文字提示信息也输出给输出装置。
4.如权利要求3所述的文字信息提示系统,其特征在于,
上述迭代单元按照预先设置的迭代次数,进行多次上述迭代处理。
5.如权利要求1所述的文字信息提示系统,其特征在于,
上述多个文字提示信息产生单元包括:
语义信息类型的文字提示信息产生单元,产生与文字的语义信息有关的文字提示信息,该语义信息至少包括与文字本身是否具有含义、以及该含义在公共领域中使用的比率有关的信息。
6.如权利要求5所述的文字信息提示系统,其特征在于,
上述多个文字提示信息产生单元还包括从以下类型的文字提示信息产生单元中选择出来的至少一个文字提示信息产生单元,这些类型包括:
文字所在词信息类型的文字提示信息产生单元,产生与文字所在词信息有关的文字提示信息,该文字所在词信息至少包括与文字是否为多音字、包含文字的词出现的频率、包含文字的词的长度、以及包含文字的词的词性有关的信息;
结构信息类型的文字提示信息产生单元,产生与文字的结构信息有关的文字提示信息,该结构信息至少包括与语言习惯、按结构将文字分离出来的部首的数目、以及分离出来的部首是否可以发音有关的信息;以及
首要结构信息类型的文字提示信息产生单元,产生与文字的首要结构信息有关的文字提示信息,该首要结构信息至少包括与文字的首要结构的语言习惯、首要结构是否可以发音、以及首要结构的复杂性有关的信息。
7.如权利要求1~6中任意一项所述的文字信息提示系统,其特征在于,
所述文字是汉字;
所述文字提示信息包括汉字所在词的信息、汉字本身的结构信息和汉字所具有的语义信息中的至少一个。
8.一种文字提示信息计算装置,对输入的文字进行分析、计算并输出与该文字有关的、用于对该文字进行补充说明和提示的文字提示信息,其特征在于,包括:
多个文字提示信息产生单元,分别计算并产生上述输入的文字的不同类型的文字提示信息;
提示信息选择单元,从各文字提示信息产生单元所产生的不同类型的文字提示信息中选择文字提示信息,并进行输出,
上述提示信息选择单元对各个文字提示信息产生单元产生的文字提示信息进行排序,依次选择并输出排序后的文字提示信息,
各个文字提示信息产生单元被分配有序号,上述提示信息选择单元根据各个文字提示信息产生单元所具有的序号,对其分别产生的文字提示信息进行相应的排序。
9.如权利要求8所述的文字提示信息计算装置,其特征在于,
该文字提示信息计算装置还具备反馈单元和统计信息存储单元,
上述反馈单元允许用户对上述输出的文字提示信息进行关于该文字提示信息是否有效的反馈,并将用户的反馈信息传递给统计信息存储单元;
上述统计信息存储单元对上述反馈信息进行统计处理,并根据统计处理结果对上述各文字提示信息产生单元的序号进行更新。
10.如权利要求8所述的文字提示信息计算装置,其特征在于,
上述文字提示信息计算装置还具备迭代单元,该迭代单元进行文字提示信息的迭代处理,该迭代处理为:提取要输出的文字提示信息中的文字,将所提取的文字提供给上述各文字提示信息产生单元,再次计算文字提示信息,并输出再次计算出的文字提示信息。
11.如权利要求10所述的文字提示信息计算装置,其特征在于,
上述迭代单元按照预先设置的迭代次数,进行多次上述迭代处理。
12.如权利要求8所述的文字提示信息计算装置,其特征在于,
上述多个文字提示信息产生单元包括:
语义信息类型的文字提示信息产生单元,产生与文字的语义信息有关的文字提示信息,该语义信息至少包括与文字本身是否具有含义、以及该含义在公共领域中使用的比率有关的信息。
13.如权利要求12所述的文字提示信息计算装置,其特征在于,
上述多个文字提示信息产生单元还包括从以下类型的文字提示信息产生单元中选择出来的至少一个文字提示信息产生单元,这些类型包括:
文字所在词信息类型的文字提示信息产生单元,产生与文字所在词信息有关的文字提示信息,该文字所在词信息至少包括与文字是否为多音字、包含文字的词出现的频率、包含文字的词的长度、以及包含文字的词的词性有关的信息;
结构信息类型的文字提示信息产生单元,产生与文字的结构信息有关的文字提示信息,该结构信息至少包括与语言习惯、按结构将文字分离出来的部首的数目、以及分离出来的部首是否可以发音有关的信息;以及
首要结构信息类型的文字提示信息产生单元,产生与文字的首要结构信息有关的文字提示信息,该首要结构信息至少包括与文字的首要结构的语言习惯、首要结构是否可以发音、以及首要结构的复杂性有关的信息。
14.如权利要求8~13中任意一项所述的文字提示信息计算装置,其特征在于,
所述文字是汉字;
所述文字提示信息包括汉字所在词的信息、汉字本身的结构信息和汉字所具有的语义信息中的至少一个。
CN2008101377601A 2008-07-18 2008-07-18 文字信息提示系统 Expired - Fee Related CN101630316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101377601A CN101630316B (zh) 2008-07-18 2008-07-18 文字信息提示系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101377601A CN101630316B (zh) 2008-07-18 2008-07-18 文字信息提示系统

Publications (2)

Publication Number Publication Date
CN101630316A CN101630316A (zh) 2010-01-20
CN101630316B true CN101630316B (zh) 2012-07-04

Family

ID=41575426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101377601A Expired - Fee Related CN101630316B (zh) 2008-07-18 2008-07-18 文字信息提示系统

Country Status (1)

Country Link
CN (1) CN101630316B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032626B (zh) * 2019-04-19 2022-04-12 百度在线网络技术(北京)有限公司 语音播报方法和装置
CN113722470B (zh) * 2021-09-06 2024-03-08 杭州安恒信息技术股份有限公司 一种信息提示方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1690933A (zh) * 2004-04-29 2005-11-02 刘春华 用于计算机汉字输入法的提示技术
CN1746820A (zh) * 2004-09-08 2006-03-15 乐金电子(中国)研究开发中心有限公司 移动通信终端动态显示输入窗口的方法
CN101089794A (zh) * 2007-07-02 2007-12-19 熊仲炎 中文简易检索与文字快速输入

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1690933A (zh) * 2004-04-29 2005-11-02 刘春华 用于计算机汉字输入法的提示技术
CN1746820A (zh) * 2004-09-08 2006-03-15 乐金电子(中国)研究开发中心有限公司 移动通信终端动态显示输入窗口的方法
CN101089794A (zh) * 2007-07-02 2007-12-19 熊仲炎 中文简易检索与文字快速输入

Also Published As

Publication number Publication date
CN101630316A (zh) 2010-01-20

Similar Documents

Publication Publication Date Title
CN105830011B (zh) 用于交叠手写文本输入的用户界面
TW490654B (en) Method and system of automatically extracting new word
Slimane et al. A new arabic printed text image database and evaluation protocols
Dimock Introduction: Genres as fields of knowledge
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
CN106528588A (zh) 一种为文本信息匹配资源的方法及装置
CN101004738B (zh) 文字输入装置及其方法和具备文字输入装置的复印机
CN101213542B (zh) 信息处理设备、信息处理方法和信息处理程序
US7962507B2 (en) Web content mining of pair-based data
WO2011042710A1 (en) System and method for inputting text into electronic devices
CN102193646B (zh) 人名候选词的生成方法及装置
JP6450138B2 (ja) 情報処理装置及び発話内容出力方法
CN102346560B (zh) 一种输入法中调整候选词顺序的方法及装置
CN109325120A (zh) 一种分离用户和产品注意力机制的文本情感分类方法
CN110114776A (zh) 使用全卷积神经网络的字符识别的系统和方法
CN102478969A (zh) 候选汉字的筛选方法及装置
CN106980620A (zh) 一种对中文字串进行匹配的方法及装置
CN101539928A (zh) 在电脑屏幕上通过单击鼠标中键进行在线搜索的方法
CN101630316B (zh) 文字信息提示系统
Kirmizialtin et al. Automated transcription of non-Latin script periodicals: a case study in the ottoman Turkish print archive
CN106021413B (zh) 基于主题模型的自展式特征选择方法及系统
CN1515988B (zh) 一类音形义汉字编码输入法
CN103218199A (zh) 带标识码输入的语音输入法
CN114328871A (zh) 一种基于nlp技术和内置知识库的智能客服问题解答方法
CN101071334A (zh) 在中文输入法中恢复候选词顺序的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120704

Termination date: 20180718