CN104808806B - 根据不确定性信息实现汉字输入的方法和装置 - Google Patents

根据不确定性信息实现汉字输入的方法和装置 Download PDF

Info

Publication number
CN104808806B
CN104808806B CN201410041504.8A CN201410041504A CN104808806B CN 104808806 B CN104808806 B CN 104808806B CN 201410041504 A CN201410041504 A CN 201410041504A CN 104808806 B CN104808806 B CN 104808806B
Authority
CN
China
Prior art keywords
information
chinese character
unascertained
input
entered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410041504.8A
Other languages
English (en)
Other versions
CN104808806A (zh
Inventor
陈又新
吴介
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Original Assignee
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Samsung Telecommunications Technology Research Co Ltd, Samsung Electronics Co Ltd filed Critical Beijing Samsung Telecommunications Technology Research Co Ltd
Priority to CN201410041504.8A priority Critical patent/CN104808806B/zh
Priority to US14/607,601 priority patent/US10242296B2/en
Publication of CN104808806A publication Critical patent/CN104808806A/zh
Application granted granted Critical
Publication of CN104808806B publication Critical patent/CN104808806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/018Input/output arrangements for oriental characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/246Division of the character sequences into groups prior to recognition; Selection of dictionaries using linguistic properties, e.g. specific for English or German language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/293Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of characters other than Kanji, Hiragana or Katakana

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

提供了一种根据不确定性信息实现汉字输入的方法及装置,其中,方法包括:接收用户的输入信息;从输入信息中提取待输入汉字的至少两种不确定性信息;根据至少两种不确定性信息,确定并输出匹配的汉字;其装置包括:接收模块、提取模块以及匹配模块。本发明提供的方法及装置,使得当用户对待输入汉字的读音信息或者字型信息记忆不完全时,将待输入汉字对应的字符的候选限制在一定范围内,并且结合所提取出的待输入汉字的至少两种不确定性信息,实现待输入汉字的准确输入。

Description

根据不确定性信息实现汉字输入的方法和装置
技术领域
本发明涉及终端设备的技术领域,具体而言,本发明涉及根据不确定性信息实现汉字输入的方法和装置。
背景技术
中国汉字笔画繁复,移动设备中拼音输入法的广泛使用导致人们对汉字的字形越发的不熟悉,提笔忘字的现象也越来越频繁。即便手写输入法的功能中包括了在使用者输入字形相近的字符时也能在候选中列出正确字符,但有些常用的汉字,例如犄角旮旯,饕餮等,经常让人一时之间即便大概的字形也无从想起。
现有技术中,除了精确地写出一个汉字,还有利用辅助信息,或者通过与系统交互的先验知识,来作为汉字输入的辅助手段。
对于那些不记得如何书写的汉字,但是人们却能够记得相应的汉字的读音和声调;或者记得相应的结构布局的类型;或者仅仅记得改字的某一个偏旁部首;或者由于香港台湾居民的拼音系统同大陆不同以及有些老年人不会拼音,只是记得相应字符的读音,只能输入相应字符的同音字。以上这些信息统称为不确定信息。
现有的输入法往往只利用单一信息,例如拼音,或者字形来实现输入,这使得当汉字或拼音的信息记忆不完全的时候,用户无法完成相应汉字的输入。
发明内容
本发明提供根据不确定性信息实现汉字输入的方法及装置,用于通过用户待输入汉字所提供的不确定性信息,基于上述至少两种不确定性信息来解决用户对待输入的汉字的拼音或者字型的信息记忆不完全时,无法实现汉字的准确输入的问题。
为解决现有技术中的上述问题,本发明实施例一方面提供了一种根据不确定性信息实现汉字输入的方法,包括以下步骤:
接收用户的输入信息;
从所述输入信息中提取待输入汉字的至少两种不确定性信息;
根据所述至少两种不确定性信息,确定并输出匹配的汉字。
本发明实施例另一方面提供了一种根据不确定性信息实现汉字输入的方法,包括以下步骤:
接收用户的输入信息;
从所述输入信息中提取待输入汉字的不确定性信息,其中,所述不确定性信息包括以下任意一种或多种信息:
声调信息、结构布局信息、偏旁部首信息、同音字信息和位置信息;
基于已经确定的汉字和所述不确定性信息,确定并输出所述待输入汉字。
本发明实施例另一方面提供了一种根据不确定性信息实现汉字输入的装置,包括:接收模块、提取模块以及匹配模块;
所述接收模块,用于接收用户的输入信息;
所述提取模块,用于从所述输入信息中提取待输入汉字的至少两种不确定性信息;
所述匹配模块,用于根据所述至少两种不确定性信息,确定并输出匹配的汉字。
本发明实施例另一方面提供了一种根据不确定性信息实现汉字输入的装置,包括:接收模块、提取模块以及匹配模块;
所述接收模块,用于接收用户的输入信息;
所述提取模块,用于从所述输入信息中提取待输入汉字的不确定性信息,其中,所述不确定性信息包括以下任意一种或多种信息:
声调信息、结构布局信息、偏旁部首信息、同音字信息和位置信息;
所述匹配模块,用于基于已经确定的汉字和所述不确定性信息,确定并输出所述待输入汉字。
本发明提出的上述方案,使得当用户对待输入汉字的读音信息或者字型信息记忆不完全时,将待输入汉字对应的字符的候选限制在一定范围内,并且结合所提取出的待输入汉字的至少两种不确定性信息,实现待输入汉字的准确输入。此外,本发明提出的上述方案,对现有系统的改动很小,不会影响系统的兼容性,而且实现简单、高效。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明根据不确定性信息实现汉字输入的方法一种实施例的流程图;
图2为本发明根据不确定性信息实现汉字输入的方法另一种实施例的流程图;
图3为本发明根据不确定性信息实现汉字输入的方法另一种实施例中的结构布局信息的分类类型示意图;
图4为本发明根据不确定性信息实现汉字输入的方法另一种实施例中方案一的流程图;
图5为本发明根据不确定性信息实现汉字输入的方法另一种实施例中方案四的流程图;
图6为本发明根据不确定性信息实现汉字输入的装置一种实施例的结构示意图;
图7为本发明根据不确定性信息实现汉字输入的装置另一种实施例的结构示意图;
图8为根据不确定性信息确定匹配度最高的汉字的示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
图1为本发明根据不确定性信息实现汉字输入的方法一种实施例的流程图。如图1所示,本实施例中根据不确定性信息实现汉字输入的方法流程具体包括如下步骤:
步骤101、接收用户的输入信息。
作为本发明的实施例,接收用户的输入信息,包括:
在输入区域检测用户的操作;
记录用户的操作输入的至少两种不确定性信息。
步骤102、从输入信息中提取待输入汉字的至少两种不确定性信息。
具体而言,不确定性信息包括以下任意一种信息:拼音信息、声调信息、结构布局信息、偏旁部首信息、同音字信息以及位置信息。其中,拼音信息包括拼音字符串信息和拼音声调信息,拼音字符串信息用于根据书写的笔迹特点和书写区域,分离拼音串;拼音声调信息用于根据拼音声调书写的笔迹特点和书写区域,分离拼音声调;结构布局信息用于根据结构布局信息的笔迹特点和书写区域,分离结构布局信息;偏旁部首信息用于根据结构布局信息的笔迹特点和书写区域,分离用户可以确定的偏旁部首;同音字信息用于根据同音字书写的笔迹特点和书写区域,分离同音字信息。
声调信息包括待输入汉字的阴平、阳平、上声或下声的信息。作为本发明的实施例,终端设备通过以下任意一种方式接收声调信息:
接收用户手写输入声调信息的符号:ˉ,ˊ,ˇ或ˋ;
接收特定的数字或字母来表示声调信息。
例如,预先设置数字1,2,3,4分别表示阴平、阳平、上声或下声;或者,预先设置字母A,B,C,D分别表示阴平、阳平、上声或下声。
作为本发明的实施例,终端设备通过以下任意一种方式接收位置信息:接收用户输入的空格或特定的字符。例如,预先设置“?”来指示位置信息。
在实际应用中,所包含的待输入汉字的位置信息对待输入汉字有一定的定位作用,例如,当人们不知道“味同嚼蜡”中的第三个字的“嚼”字怎样写时,可以连续输入“味同?蜡”,该词语的第三个字可以用问号或者空格来代替,再结合不确定性信息中的拼音、拼音声调、结构布局、偏旁部首以及同音字等信息,以实现当用户对待输入汉字的读音信息或者字型信息记忆不完全时,仍然能够准确输入待输入汉字。
步骤103、根据至少两种不确定性信息,确定并输出匹配的汉字。
作为本发明的实施例,根据至少两种不确定性信息,确定并输出匹配的汉字,包括:
确定不确定性信息的优先级;
根据优先级,依次根据不确定性信息在相应模型中匹配待输入汉字;
确定匹配度最高的汉字为待输入汉字,输出匹配度最高的汉字。
在本应用场景中,通过接收用户的输入信息;从输入信息中提取待输入汉字的至少两种不确定性信息;根据至少两种不确定性信息,确定并输出匹配的汉字;使得当用户对待输入汉字的读音信息或者字型信息记忆不完全时,将待输入汉字对应的字符的候选限制在一定范围内,并且结合所提取出的待输入汉字的至少两种不确定性信息,例如,拼音信息、声调信息、结构布局信息、偏旁部首信息、同音字信息以及位置信息等信息,实现待输入汉字的准确输入。
图2为本发明根据不确定性信息实现汉字输入的方法另一种实施例的流程图。如图2所示,本实施例中根据不确定性信息实现汉字输入的流程具体包括如下步骤:
步骤201、接收用户的输入信息。
作为本发明的实施例,接收用户的输入信息,包括:
在输入区域检测用户的操作;
记录用户的操作输入的至少两种不确定性信息。
步骤202、接收用户的输入,设置不确定性信息的优先级。
步骤203、从输入信息中提取待输入汉字的至少两种不确定性信息。
具体而言,不确定性信息包括以下任意一种信息:拼音信息、声调信息、结构布局信息、偏旁部首信息、同音字信息以及位置信息。其中,拼音信息包括拼音字符串信息和拼音声调信息,拼音字符串信息用于根据书写的笔迹特点和书写区域,分离拼音串;拼音声调信息用于根据拼音声调书写的笔迹特点和书写区域,分离拼音声调;结构布局信息用于根据结构布局信息的笔迹特点和书写区域,分离结构布局信息;偏旁部首信息用于根据结构布局信息的笔迹特点和书写区域,分离用户可以确定的偏旁部首;同音字信息用于根据同音字书写的笔迹特点和书写区域,分离同音字信息。
图3为本发明根据不确定性信息实现汉字输入的方法另一种实施例中的结构布局信息的分类类型示意图。如图3所示,本发明所涉及的结构布局信息的分类如下所述:根据汉字的结构特点,可将汉字的结构大致划分为以下类型:独体结构、上下结构、上中下结构、左右结构、左中右结构、上单结构、下单结构、左单结构、右单结构、半包围结构、包围结构、品字形结构。
本应用场景中所涉及的“不确定性信息组合对应的方案种类”具体如下所述:
根据用户能够提供的不确定性信息的种类,可罗列出如下七种输入方案。输入的信息越多,系统获得的先验知识就越多,就越有可能最为快速准确地得到用户想要输入的汉字。
为了更清晰地描述,可以将方案类型、拼音、拼音声调、结构布局、偏旁部首以及同音字之间建立映射关系,具体如表1所示。
表1方案类型、拼音、拼音声调、结构布局、偏旁部首以及同音字之间的映射表
方案类型 拼音 拼音声调 结构布局 偏旁部首 同音字
方案一
方案二
方案三
方案四
方案五
方案六
方案七
方案八
其实组合方案的种类可以更多的,上面列出的八个方案例子只是常见的用户可能会使用的组合。单一不确定性信息也可以单独构成一个方案。以单一使用结构布局信息为例,由于结构布局信息使用方框表示,容易同汉字的某些偏旁部首产生混淆,导致单独的结构布局信息被误识别成汉字,如果该汉字恰好满足上下文语义关系,则会降低系统最终给出正确汉字的准确率。同音字同理。
偏旁部首最好能够与结构布局信息成对出现,这样会更好地限制偏旁部首在字符中所处的位置,降低系统处理复杂程度。
步骤204、在屏幕上显示用户输入的不确定性信息。
在实际应用中,区别于现有技术,本发明的实施例可以在屏幕上显示用户输入的不确定性信息,例如显示至少两种不确定性信息,这样明显区别于现有技术的只能提取一种不确定性信息,待输入汉字的汉字字型或拼音的信息;而本发明实施例中所提供的汉字输入的方法,可以至少提供两种以上的不确定性信息,并可以显示至少两种以上的不确定信息,这样就可以充分的利用词语的位置信息。例如,当待输入汉字为“味同嚼蜡”时,忘记具体如何去写“嚼”字,但是,知道该字在该词语中的上下文中的位置信息,是第三个字,词语是前两个字以及顺序是“味同”,以及第四个字是“蜡”,同时,结合这个字的其它信息,例如,该字的拼音为“jiao”、该字的拼音声调为二声,该字的结构布局为左右结构,该字的偏旁部首中的右半部分的字形为“爵”,该字的同音字为“交”中的汉字之一,通过在屏幕上显示用户输入的至少两种以上的不确定性信息,就可以使得当用户对待输入汉字的读音信息或者字型信息记忆不完全时,准确便捷地输入待输入汉字。
进一步地,检测到用户在输入区域修改不确定性信息时,在屏幕上显示更新后的不确定性信息。
在实际应用中,区别于现有技术,本发明的实施例可以检测到用户在输入区域修改不确定性信息时,在屏幕上显示更新后的不确定性信息。这样明显区别于现有技术的只能提取一种不确定性信息,待输入汉字的汉字字型或拼音的信息;而本发明实施例中所提供的汉字输入的方法,可以至少提供两种以上的不确定性信息,并可以检测到用户在输入区域修改不确定性信息时,在屏幕上显示更新后的不确定性信息,这样就可以充分的利用词语的位置信息。例如,当待输入汉字为“味同嚼蜡”时,忘记具体如何去写“嚼”字,但是,知道该字在该词语中的上下文中的位置信息,是第三个字,词语是前两个字以及顺序是“味同”,以及第四个字是“蜡”,同时,结合这个字的其它信息,例如,该字的拼音为“jiao”、该字的拼音声调为二声,该字的结构布局为左右结构,该字的偏旁部首中的右半部分的字形为“爵”,该字的同音字为“交”中的汉字之一,通过在屏幕上显示用户输入的至少两种以上的不确定性信息,就可以使得当用户对待输入汉字的读音信息或者字型信息记忆不完全时,准确便捷地输入待输入汉字。
具体而言,例如,当待输入汉字为“味同嚼蜡”时,忘记具体如何去写“嚼”字,但是,知道该字在该词语中的位置信息,是第三个字,词语是前两个字以及顺序是“味同”,以及第四个字是“蜡”,定位使用待输入汉字的位置信息,
若不确定性信息为两种时,结合第三个字的拼音为“jiao”;
若不确定性信息为三种时,结合第三个字的拼音为“jiao”,且第三个字的声调为二声;
若不确定信息为四种时,结合第三个字的拼音为“jiao”,且第三个字的声调为二声;且该字的结构布局为左右结构。
从上述可以看出:所包含的不确定性信息种类越多,越能够尽可能地缩小不确定性信息所确定的字符集合,从而减少该字符同上下文组合成词组的数目,进一步地减少语言模型分析时所需计算时间,提高计算精度,从而快速便捷的输入不知道具体字型或拼音的待输入汉字。
通过检测到用户在输入区域修改不确定性信息时,并在屏幕上显示更新后的不确定性信息,可以使得本发明实施例的汉字输入方便更具有实用性和更具有可操作性。
步骤205、根据至少两种不确定性信息,确定并输出匹配的汉字。
作为本发明的实施例,根据至少两种不确定性信息,确定并输出匹配的汉字,包括:
根据至少两种不确定性信息选择相应的模型;
在至少两种相应的模型中匹配待输入汉字;
对每种模型的匹配结果进行分析,确定匹配度最高的汉字为待输入汉字,输出匹配度最高的汉字。
作为本发明的实施例,还包括:
确定不确定性信息的优先级;
根据优先级,依次根据不确定性信息在相应模型中匹配待输入汉字的步骤。
作为本发明的实施例,还包括接收用户的输入,设置不确定性信息的优先级的步骤。
在实际应用中,通过设置不确定性信息的优先级,这是明显区别于现有技术所提供的输入法的,其中,优先级会影响效率,匹配效果等等。
具体而言,通过设置不确定信息的优先级,就可以更加快速便捷的在屏幕上找到待输入汉字。进一步而言,对于不同的汉字,各种不确定信息在匹配待输入的汉字时,重要性也不同。
例如使用的不确定性信息具体为三种:位置信息、拼音信息和声调信息,可以预先设置上述三种不确定性信息的优先级。具体地,设置位置信息的优先级为第一级,为最优先执行的操作;拼音信息为第二级,为次之执行的操作;声调信息为第三极,为最后执行的操作。
当待输入汉字为“味同嚼蜡”中的“嚼”字时,根据本发明提出的技术方案,用户可以通过多种方式确定待输入的“嚼”字,例如,通过读音信息、偏旁部首、声调、结构布局及位置信息,等等。例如,当用户输入不确定信息包括:结构布局为左右结构、且右边为“爵”;声调为第二声。则这个字可能是“味同嚼蜡”中的“嚼”字,也可能是“精神爝火”中的“爝”字。当输入的位置信息为“味同蜡”时,根据在位置信息中的位置为第三个字判断时,仍然无法与“精神火”区分;但是根据位置信息中的信息“味同”“蜡”判断时,即立即可以将“爝”字排除。
进一步而言,例如,当某个用户对通过读音查找汉字非常有信心时,可以将不确定信息拼音,声调和/或同音字的优先级设置为更高;当某个用户更擅长于通过书写查找汉字时,可以将不确定信息结构布局和/或偏旁部首的优先级设置为更高。
不同方案种类下的输入示例及处理流程:
情景:用户想要在手写输入界面“味同嚼蜡”四个字的中文文本,但“嚼”字的具体写法忘记了。
在方案1下,用户的输入场景如下所示:
输入场景:“味同jiao蜡”。
在方案2下,用户的输入场景如下所示:
输入场景:“味同jiao蜡”,并且显示输入的jiao的声调为二声。
在方案3下,用户的输入场景如下所示:
输入场景:“味同jiao蜡”,并且显示输入的汉字的结构类型为左右结构。
在方案4下,用户的输入场景如下所示:
输入场景:“味同jiao蜡”,并且显示输入的汉字的结构类型为左右结构,且显示输入的jiao的声调为二声。
在方案5下,用户的输入场景如下所示:
输入场景:“味同交蜡”,并且显示输入的“交”的声调为二声。
在方案6下,用户的输入场景如下所示:
输入场景:“味同交蜡”,并且显示输入的汉字“交”的结构类型为左右结构,且显示输入的汉字“交”的声调为二声。
在方案7下,用户的输入场景如下所示:
输入场景:“味同交蜡”,并且显示输入的汉字“交”的结构类型为左右结构。
在方案8下,用户的输入场景如下所示:
输入场景:“味同蜡”,并且显示所缺汉字的结构类型为左右结构,且显示所缺汉字的右半部分的字形为“爵”。
在某些情况下,一个词语中,用户忘记写法的字符可能会超过一个。仍以“味同嚼蜡”为例,
在方案9下,用户的输入场景如下所示:
输入场景:“味同jiao la”。
对于上述列举的各种输入场景,当按照一定的格式输入笔迹数据后,处理流程如下:
Step1:输入模块接收用户输入的笔迹点,之后传送至预处理模块,为获得更好的识别结果而进行必要的预处理。
Step2:切分模块确定每个字符边界。
Step3:预处理后的笔迹数据点经由不确定性信息检测模块确定属于不确定性信息的笔迹点,将其同中文文本笔迹点分离。
Step4:在Step2中得到的不确定性信息笔迹中,通过拼音字符串检测模块/拼音声调检测模块/结构布局信息检测模块/偏旁部首检测模块/同音字检测模块继续分离至少存在其中一项的不确定性信息。
Step5:将Step3中分离的信息通过拼音识别模块/拼音声调识别模块/结构布局分类识别模块/偏旁部首识别模块/同音字识别模块(同中文字符识别模块)进行识别。
Step6:识别Step2中分离后得到的中文文本笔迹点得到中文字符候选。
Step7:同音字识别结果需要经过“汉字->拼音转换模块”的处理,转化成拼音字符串。
Step8:Step4中,识别得到的拼音字符串及Step6中转化得到的拼音字符串均需要经过“拼音+声调->字符转换模块”的处理,转化成中文字符候选。如果缺少声调信息,则变成拼音->字符的转换处理。
Step9:Step4中识别得到的结构布局信息需要经过“结构布局类别->字符转换模块”的处理,转化成中文字符候选。
Step10:字符筛选融合模块将Step7以及Step8中得到的中文字符根据偏旁部首的识别结果进行筛选,并重新打分排序,得到一组候选中文字符。
Step11:将Step9中产生的候选同Step5中产生的上下文候选组合成词组,通过语言模型计算分数,根据分数高低进行排序,输出词语/句子候选。
Step12:将结果输出。
对于每个字符位置的可利用信息中至少包含了拼音或汉字二者任意其一时,如上述方案1-7所示,除了上述处理方式之外,另一种处理方式则是将全部输入分别全部转换成拼音及汉字,在拼音模型及汉字模型下分别对该字符串进行识别打分处理,最后将分别得到的候选融合成统一候选序列输出。具体的处理流程如下:
Step21:当输入只包含输入模块接收用户输入的笔迹点,之后传送至预处理模块,为获得更好的识别结果而进行必要的预处理。
Step22:切分模块确定每个字符边界。
Step23:将Step22得到的结果中的每个字符转换成汉字。如果该字符位置本身书写为汉字,则识别后,根据置信度,给出汉字候选的排序。如果该字符位置本身书写为拼音,则根据拼音串的识别结果给出汉字候选。转换结果是保证每个字符位置对应了至少一个的汉字候选。
Step24:利用字符筛选融合模块和语言模型打分模块中的汉字语言模型打分功能对Step23的结果进行融合拼接,得到词语候选。
Step25:将Step22得到的结果中的每个字符转换成拼音。如果该字符位置本身书写为拼音,则将识别后的拼音串输出。如果该字符位置本身书写为汉字,不论该汉字为正确写法还是同音字,均识别后根据“汉字->拼音转换模块”将汉字候选转换成拼音串候选。转换结果是每个字符位置对应了至少一个拼音串候选。
Step26:利用语言模型打分模块中的拼音串模型打分功能对Step25的结果进行融合拼接,得到词语候选。
Step27:利用候选筛选融合模块,对Step24和Step26的结果进行融合。融合规则如下:
A.若序列中有相同的候选,则该候选位置提前。
B.统计每个候选中字符出现额度,如果某候选中出现额度高的字符个数大于其他候选,则将该候选位置提前。
C.根据每个候选的得分,将两个候选序列中的候选融合成一个候选序列。
Step28:将融合后的结果输出。
图4为本发明根据不确定性信息实现汉字输入的方法另一种实施例中方案一的流程图。如图4所示,本实施例中根据不确定性信息实现汉字输入的方法另一种实施例中方案一的流程具体包括如下步骤:
接收用户输入的笔迹;
为获得更好的识别结果,而进行必要的预处理;
通过切分确定每个字符的边界;
从预处理后的笔迹数据点中提取属于不确定性信息的笔迹点,将其同中文文本笔迹点分离;
检测不确定性信息;若检测到不确定性信息,则执行相应的操作——在得到的不确定性信息笔迹中,通过拼音字符信息继续分离不确定性信息;将分离的非中文文本信息通过拼音识别模块进行识别;将识别得到的拼音字符串经过拼音->字符的转换,转化成中文字符候选;送至拼音串语言模型进行打分,根据统计的中文词条/拼音串及其出现频率,通过语言模型打分计算拼接后的词条正确与否的概率;将识别结果拼接后输出。
若没有检测到不确定性信息,则对中文字符进行识别,即对剥离了不确定信息的中文文本字符进行识别以及对不确定信息中的同音字进行识别;送至汉字语言模型进行打分,根据统计的中文词条/拼音串及其出现频率,通过语言模型打分计算拼接后的词条正确与否的概率;将识别结果拼接后输出。
方案一是列出的九种方案中输入形式最为简单的一个,只将拼音串作为唯一的不确定性信息。这种方案也正是现有输入模式下解决忘记汉字写法的唯一解决方案。
图5为本发明根据不确定性信息实现汉字输入的方法另一种实施例中方案四的流程图。如图5所示,本实施例中根据不确定性信息实现汉字输入的方法另一种实施例中方案四的流程具体包括如下步骤:
方案四是上述九种方案中相对复杂的一种,包含了三类不确定性信息,分别为拼音串、拼音声调和结构布局。上述过程同方案一,只是加入在拼音字符串的不确定信息中,又加入了拼音声调检测信息以及结构布局信息两种不确定信息,过程如对图4的描述,具体不再赘述。
由于加入了其余两种不确定信息中的因素,引入了对字符进行筛选融合的过程,具体如下所述:将相同输入下不同处理依据(拼音,汉字)得到的候选序列进行排序,得到统一的候选序列。
与方案一相比,方案四所包含的信息种类更多,其不确定性信息就越多,越能够尽可能地缩小不确定性信息所确定的字符集合,从而减少该字符同上下文组合成词组的数目,进一步地减少语言模型打分所需计算时间,提高计算精度,从整体上提升系统性能。
在上述实施例中,首先接收用户的输入信息;从输入信息中提取待输入汉字的至少两种不确定性信息;根据至少两种不确定性信息,确定并输出匹配的汉字;使得当用户对待输入汉字的读音信息或者字型信息记忆不完全时,将待输入汉字对应的字符的候选限制在一定范围内,并且结合所提取出的待输入汉字的至少两种不确定性信息,例如,拼音信息、声调信息、结构布局信息、偏旁部首信息、同音字信息以及位置信息等信息,实现待输入汉字的准确输入。
本发明实施例另一方面提供了一种根据不确定性信息实现汉字输入的方法,包括以下步骤:
接收用户的输入信息;
从输入信息中提取待输入汉字的不确定性信息,其中,不确定性信息包括以下任意一种或多种信息:
声调信息、结构布局信息、偏旁部首信息、同音字信息和位置信息;
基于已经确定的汉字和不确定性信息,确定并输出待输入汉字。
在本发明的实施例中,通过已经确定的汉字,例如是待输入汉字的上下文的内容,然后再结合声调信息、结构布局信息、偏旁部首信息、同音字信息和位置信息中的任意一种或多种不确定性信息,就能够准确便捷地确定并输出待输入汉字。也就是,本发明实施例提供的方案只需要一种不确定性信息,也可实现汉字输入。
具体地,例如,当待输入汉字为“味同嚼蜡”时,忘记具体如何去写“嚼”字,知道该词语中已经确定的汉字包括“味同”和“蜡”,结合这个字的声调信息、结构布局信息、偏旁部首信息、同音字信息和位置信息中的任意一种或多种不确定性信息,例如,该字的拼音声调为二声,或该字的结构布局为左右结构,或该字的偏旁部首中的右半部分的字形为“爵”,或该字的同音字为“交”中的汉字之一,或该字位于词语中的第三个字,就很容易确定待输入的汉字为“嚼”。也就是,通过基于已经确定的汉字(前两个字以及顺序是“味同”,以及第四个字是“蜡”)和不确定性信息(该字的拼音声调为二声,或该字的结构布局为左右结构,或该字的偏旁部首中的右半部分的字形为“爵”,或该字的同音字为“交”中的汉字之一,或该字位于词语中的第三个字),就可以准确便捷地输出待输入汉字“嚼”字。
在本应用场景中,通过接收用户的输入信息;从输入信息中提取待输入汉字的不确定性信息;其中,不确定性信息包括以下任意一种或多种信息:声调信息、结构布局信息、偏旁部首信息、同音字信息和位置信息;基于已经确定的汉字和不确定性信息,确定并输出待输入汉字;相对于上述根据至少两种不确定性信息,确定并输出匹配的汉字的技术方案,本方案充分地利用了已经确定的待输入汉字的上下文的内容,只需要声调信息、结构布局信息、偏旁部首信息、同音字信息和位置信息中的任意一种信息,就能够准确便捷地确定并输出待输入汉字。
由于在本发明实施例中的基于已经确定的汉字和不确定性信息,确定并输出待输入汉字的过程与上述方法实施例中已经详细描述的根据至少两种不确定性信息,确定并输出匹配的汉字的过程相类似,因此,上述根据至少两种不确定性信息,确定并输出匹配的汉字的技术方案中的实施例,也同样适用于本发明实施例中的基于已经确定的汉字和以下任意一种或多种不确定性信息,确定并输出待输入汉字的技术方案中,具体细节在此不再赘述,请参见相应部分的描述。
图6为本发明根据不确定性信息实现汉字输入的装置600一种实施例的结构示意图。如图6所示,本实施例根据不确定性信息实现汉字输入的装置包括:接收模块610、提取模块620以及匹配模块630。
接收模块610,用于接收用户的输入信息。
作为本发明的实施例,接收模块接收用户的输入信息,包括:
在输入区域检测用户的操作;
记录用户的操作输入的至少两种不确定性信息。
具体而言,接收模块610用于通过以下任意一种方式接收声调信息:
接收用户手写输入声调信息的符号:ˉ,ˊ,ˇ或ˋ;
接收特定的数字或字母来表示声调信息。
具体而言,接收模块610用于通过以下任意一种方式接收位置信息:
接收用户输入的空格或特定的字符。
提取模块620,用于从输入信息中提取待输入汉字的至少两种不确定性信息。
具体而言,提取模块620提取的不确定性信息包括以下任意一种信息:拼音信息、声调信息、结构布局信息、偏旁部首信息、同音字信息以及位置信息。其中,拼音信息包括拼音字符串信息和拼音声调信息,拼音字符串信息用于根据书写的笔迹特点和书写区域,分离拼音串;拼音声调信息用于根据拼音声调书写的笔迹特点和书写区域,分离拼音声调;结构布局信息用于根据结构布局信息的笔迹特点和书写区域,分离结构布局信息;偏旁部首信息用于根据结构布局信息的笔迹特点和书写区域,分离用户可以确定的偏旁部首;同音字信息用于根据同音字书写的笔迹特点和书写区域,分离同音字信息。
匹配模块630,用于根据至少两种不确定性信息,确定并输出匹配的汉字。
具体而言,根据至少两种不确定性信息,匹配模块630确定并输出匹配的汉字,包括:
根据至少两种不确定性信息选择相应的模型;
在至少两种相应的模型中匹配待输入汉字;
对每种模型的匹配结果进行分析,确定匹配度最高的汉字为待输入汉字,输出匹配度最高的汉字。
具体而言,匹配模块630还用于:
确定不确定性信息的优先级;
根据优先级,依次根据不确定性信息在相应模型中匹配待输入汉字。
在上述实施例中,通过接收用户的输入信息;从输入信息中提取待输入汉字的至少两种不确定性信息;根据至少两种不确定性信息,确定并输出匹配的汉字;使得当用户对待输入汉字的读音信息或者字型信息记忆不完全时,将待输入汉字对应的字符的候选限制在一定范围内,并且结合所提取出的待输入汉字的至少两种不确定性信息,例如,拼音信息、声调信息、结构布局信息、偏旁部首信息、同音字信息以及位置信息等信息,实现待输入汉字的准确输入。
图7为本发明根据不确定性信息实现汉字输入的装置另一种实施例的结构示意图。如图7所示,本实施例根据不确定性信息实现汉字输入的装置还包括:设置模块640、更新模块650和存储模块660。
作为上述根据不确定性信息实现汉字输入的装置的实施例,设置模块640用于接收用户的输入,设置不确定性信息的优先级。
进一步地,作为上述根据不确定性信息实现汉字输入的装置的实施例,接收模块610还用于在屏幕上显示至少两种不确定性信息。
更进一步地,作为上述根据不确定性信息实现汉字输入的装置的实施例,更新模块650检测到用户在输入区域修改不确定性信息时,在屏幕上显示更新后的不确定性信息。
进一步地,存储模块660,用于存储用户的输入信息,(例如,用户手写输入的笔迹)、语言模型、拼音-中文字符对应词表、中文及拼音识别库等。
除此之外,本实施例中的装置部分的处理器还具有如下功能,具体如下所述:
对接收模块610接收的用户的输入信息中的笔迹进行预处理,去噪声,倾斜校正等一系列必要的预处理过程;
对每个字符的范围进行切分识别过程;
根据提取模块620所提取的不确定性信息的格式,将用户的输入信息中的不确定性信息同文本文字相区分的过程;
根据拼音笔迹得到拼音字符串,以识别拼音笔迹的过程;
根据结构布局笔迹得到结构布局分类,以识别结构布局信息;
识别拼音声调,识别偏旁部首,识别同音字的过程;
通过对剥离了不确定性信息中的中文文本字符进行识别,以及对不确定性信息中的同音字进行识别,以识别相应的中文字符的识别过程;
通过汉字->拼音的查表转换,以根据汉字的识别结果,得到相应的汉字的拼音串的过程;
通过拼音拼音+声调->字符的查表转换,以根据拼音串和声调组合信息同中文字符的对应关系表,得到拼音+声调到中文字符的转换结果的过程;
通过结构布局类别->字符的查表转换,以根据结构布局分类的识别结果,映射到对应了该分类的字符集合的过程;
字符筛选融合过程,具体为:将经由不同类别(拼音、结构布局、同音字)的不确定性信息推导出的字符集合进行筛选(依据是偏旁部首的识别结果,如果存在的话)以及融合(依据是按照一定的权重打分规则得到的一组按高低排列的分数),以将不同种类的不确定性信息得到的字符候选进行筛选,排序。
候选筛选融合过程,具体为:将不同依据下得到的大于一个候选序列按照一定规则进行排序,融合成一个最终输出的候选序列。
语言模型打分过程,具体为:分为对汉字语言模型进行打分的过程和对拼音串语言模型进行打分的过程两类。功能分别为:将拼音对应的中文字符候选/中文字符对应的拼音串候选,同前后文的中文字符/拼音串拼接组合,对不同的组合在此模块中进行打分,分值越高,该组合在输入候选中排名越靠前;以根据统计的中文词条/拼音串及其出现频率,通过模型打分计算拼接后的词条正确与否的概率。
在上述实施例中,通过接收用户的输入信息;从输入信息中提取待输入汉字的至少两种不确定性信息;根据至少两种不确定性信息,确定并输出匹配的汉字;使得当用户对待输入汉字的读音信息或者字型信息记忆不完全时,将待输入汉字对应的字符的候选限制在一定范围内,并且结合所提取出的待输入汉字的至少两种不确定性信息,例如,拼音信息、声调信息、结构布局信息、偏旁部首信息、同音字信息以及位置信息等信息,实现待输入汉字的准确输入。
本发明实施例另一方面提供了一种根据不确定性信息实现汉字输入的装置,包括:接收模块、提取模块以及匹配模块;
接收模块,用于接收用户的输入信息;
提取模块,用于从输入信息中提取待输入汉字的不确定性信息,其中,不确定性信息包括以下任意一种或多种信息:
声调信息、结构布局信息、偏旁部首信息、同音字信息和位置信息;
匹配模块,用于基于已经确定的汉字和不确定性信息,确定并输出待输入汉字。
由于在本发明实施例中的匹配模块的基于已经确定的汉字和不确定性信息,确定并输出待输入汉字的过程与上述方法或装置实施例中已经详细描述的根据至少两种不确定性信息,确定并输出匹配的汉字的过程相类似,因此,上述方法或装置实施例中根据至少两种不确定性信息,确定并输出匹配的汉字的技术方案中的实施例,也同样适用于本发明实施例中的匹配模块的基于已经确定的汉字和以下任意一种或多种不确定性信息,确定并输出待输入汉字的技术方案中,具体细节在此不再赘述,请参见相应部分的描述。
当每个字符位置的可利用信息中至少包含了拼音或汉字二者任意其一时,图8为根据不确定性信息确定匹配度最高的汉字的示意图,包括如下处理过程:
根据至少两种不确定性信息选择相应的模型;具体处理过程结合下述实例进行描述。
接收输入信息,将“味同jiao la”分别转换成汉字和拼音串。分别转换的目的是在尽可能地利用现有信息,分别在汉字模型和拼音模型下对不确定的输入进行建模分析,得到各自模型下的结果,并进行融合,提高结果可信度。
显示在上述过程中所转换成的汉字或拼音串:
具体而言,若根据“味同jiao la”中的至少两种不确定性信息选择的是汉字语言模型,则进行以下处理流程:
在汉字语言模型中匹配待输入汉字“味同jiao la”;则“味同jiao la”可能转换成的汉字为:“味同叫啦”、“妹问交蜡”以及“妹包嚼辣”;
上述包含汉字“味同叫啦”、“妹问交蜡”以及“妹包嚼辣”的全部信息输入到汉字语言模型中进行匹配,其匹配结果为:
可能的汉字组合为:“味同嚼蜡”、“味同角辣”、“味同交啦”、“妹问叫拉”。
具体而言,若根据“味同jiao la”中的至少两种不确定性信息选择的是拼音串语言模型,则进行以下处理流程:
在拼音串语言模型中匹配待输入汉字“味同jiao la”;则
“味同jiao la”可能转换成的拼音串为:“wei tong jiao la”、“mei wen qiao”以及“shu bao”;
上述包含拼音串“wei tong jiao la”、“mei wen qiao”以及“shu bao”的全部信息输入到拼音串语言模型中进行匹配,其匹配结果为:
可能的汉字组合为:“味同嚼蜡”、“味同嚼辣”、“味同交啦”、“妹同交啦”。
根据一定的规则融合两个候选序列,例如在两个模型下各自得到的字符串中寻找是否有相同结果,如果有,则将其列在融合序列中。如例子中所示,两列字符串中均包含“味同嚼蜡”,则将“味同嚼蜡”作为融合后结果的第一个字符串候选。同样的,两列字符串中同样均包含“味同交啦”,则将“味同交啦”作为融合后结果的第二个字符串候选。接下来两列字符串中已没有相同的结果,那么对于那些只存在于一个模型下的字符串,设计融合打分规则将字符串按照分数的高低进行排列。例如可以直接对两个模型的打分进行排序,或者根据模型参数计算加权参数将两个模型下的分数换算成统一度量下的分数,再根据分数对剩余字符串进行统一排序。得到的融合结果如下所述:“味同嚼蜡”、“味同交啦”、“味同嚼辣”以及“妹同交啦”。
通过对上述汉字语言模型和拼音串语言模型的匹配结果进行分析,确定匹配度最高的汉字为待输入汉字,输出匹配度最高的汉字“味同嚼蜡”。
作为本发明的实施例,在实际应用中,上述根据不确定性信息实现汉字输入的装置通常以终端设备的形式体现,终端设备包括图6或图7所示的根据不确定性信息实现汉字输入的装置。
本发明提出的上述方案,使得当用户对待输入汉字的读音信息或者字型信息记忆不完全时,将待输入汉字对应的字符的候选限制在一定范围内,并且结合所提取出的待输入汉字的至少两种不确定性信息,实现待输入汉字的准确输入。此外,本发明提出的上述方案,对现有系统的改动很小,不会影响系统的兼容性,而且实现简单、高效。
本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (23)

1.一种根据不确定性信息实现汉字输入的方法,其特征在于,包括以下步骤:
接收用户输入的包括一个或多个汉字、及一个或多个拼音和/或位置信息的文本字符串,其中,一个或多个拼音和/或位置信息对应一个或多个待输入汉字;
识别所述一个或多个汉字的信息,并基于所述一个或多个汉字的信息、及所述一个或多个拼音和/或位置信息,提取关于待输入汉字的至少两种不确定性信息;
根据基于所述至少两种不确定性信息的语言模型,确定并输出匹配的汉字,所述语言模型的打分是通过对汉字语言模型和拼音语言模型进行打分得到的。
2.根据权利要求1所述的根据不确定性信息实现汉字输入的方法,其特征在于,所述不确定性信息包括以下任意一种信息:
拼音信息、声调信息、结构布局信息、偏旁部首信息、同音字信息以及位置信息。
3.根据权利要求2所述的根据不确定性信息实现汉字输入的方法,其特征在于,通过以下任意一种方式接收所述声调信息:
接收用户手写输入所述声调信息的符号:ˉ,ˊ,ˇ或ˋ;
接收特定的数字或字母来表示所述声调信息。
4.根据权利要求2所述的根据不确定性信息实现汉字输入的方法,其特征在于,通过以下任意一种方式接收所述位置信息:
接收用户输入的空格或特定的字符。
5.根据权利要求2至4任意之一所述的根据不确定性信息实现汉字输入的方法,其特征在于,接收用户的输入信息,包括:
在输入区域检测所述用户的操作;
记录所述用户的操作输入的至少两种不确定性信息。
6.根据权利要求5所述的根据不确定性信息实现汉字输入的方法,其特征在于,还包括:
在屏幕上显示所述至少两种不确定性信息。
7.根据权利要求6所述的根据不确定性信息实现汉字输入的方法,其特征在于,还包括:
检测到所述用户在输入区域修改所述不确定性信息时,在屏幕上显示更新后的所述不确定性信息。
8.根据权利要求2所述的根据不确定性信息实现汉字输入的方法,其特征在于,根据所述至少两种不确定性信息及其对应的至少两种语言模型,按照预先设定的所述至少两种不确定性信息的优先级确定并输出匹配的汉字,包括:
根据所述至少两种不确定性信息选择相应的模型;
在至少两种所述相应的模型中匹配所述待输入汉字;
对每种模型的匹配结果进行分析,确定匹配度最高的汉字为所述待输入汉字,输出所述匹配度最高的汉字。
9.根据权利要求8所述的根据不确定性信息实现汉字输入的方法,其特征在于,还包括:
确定所述不确定性信息的优先级;
根据优先级,依次根据所述不确定性信息在相应模型中匹配所述待输入汉字。
10.根据权利要求1所述的根据不确定性信息实现汉字输入的方法,其特征在于,还包括:
接收用户的输入,设置所述不确定性信息的优先级。
11.一种根据不确定性信息实现汉字输入的方法,其特征在于,包括以下步骤:
接收用户输入的包括一个或多个汉字、及一个或多个拼音和/或位置信息的文本字符串,其中,一个或多个拼音和/或位置信息对应一个或多个待输入汉字;
识别所述一个或多个汉字的信息,并基于所述一个或多个汉字的信息、及所述一个或多个拼音和/或位置信息,提取关于待输入汉字的至少两种不确定性信息,其中,所述不确定性信息包括以下任意一种或多种信息:
声调信息、结构布局信息、偏旁部首信息、同音字信息和位置信息;
基于已经确定的汉字和所述不确定性信息以及所述不确定性信息对应的语言模型,确定并输出所述待输入汉字,所述语言模型的打分是通过对汉字语言模型和拼音语言模型进行打分得到的。
12.一种根据不确定性信息实现汉字输入的装置,其特征在于,包括:接收模块、提取模块以及匹配模块;
所述接收模块,用于接收用户输入的包括一个或多个汉字、及一个或多个拼音和/或位置信息的文本字符串,其中,一个或多个拼音和/或位置信息对应一个或多个待输入汉字;
所述提取模块,用于识别所述一个或多个汉字的信息,并基于所述一个或多个汉字的信息、及所述一个或多个拼音和/或位置信息,提取关于待输入汉字的至少两种不确定性信息;
所述匹配模块,用于根据基于所述至少两种不确定性信息的语言模型,确定并输出匹配的汉字,所述语言模型的打分是通过对汉字语言模型和拼音语言模型进行打分得到的。
13.根据权利要求12所述的根据不确定性信息实现汉字输入的装置,其特征在于,所述提取模块提取的所述不确定性信息包括以下任意一种信息:
拼音信息、声调信息、结构布局信息、偏旁部首信息、同音字信息以及位置信息。
14.根据权利要求13所述的根据不确定性信息实现汉字输入的装置,其特征在于,所述接收模块用于通过以下任意一种方式接收所述声调信息:
接收用户手写输入所述声调信息的符号:ˉ,ˊ,ˇ或ˋ;
接收特定的数字或字母来表示所述声调信息。
15.根据权利要求13所述的根据不确定性信息实现汉字输入的装置,其特征在于,所述接收模块用于通过以下任意一种方式接收所述位置信息:
接收用户输入的空格或特定的字符。
16.根据权利要求13至15任意之一所述的根据不确定性信息实现汉字输入的装置,其特征在于,所述接收模块接收用户的输入信息,包括:
在输入区域检测所述用户的操作;
记录所述用户的操作输入的至少两种不确定性信息。
17.根据权利要求16所述的根据不确定性信息实现汉字输入的装置,其特征在于,所述接收模块还用于在屏幕上显示所述至少两种不确定性信息。
18.根据权利要求17所述的根据不确定性信息实现汉字输入的装置,其特征在于,所述装置还包括更新模块,
所述更新模块,用于检测到所述用户在输入区域修改所述不确定性信息时,在屏幕上显示更新后的所述不确定性信息。
19.根据权利要求13所述的根据不确定性信息实现汉字输入的装置,其特征在于,根据所述至少两种不确定性信息,所述匹配模块确定并输出匹配的汉字,包括:
根据所述至少两种不确定性信息选择相应的模型;
在至少两种所述相应的模型中匹配所述待输入汉字;
对每种模型的匹配结果进行分析,确定匹配度最高的汉字为所述待输入汉字,输出所述匹配度最高的汉字。
20.根据权利要求19所述的根据不确定性信息实现汉字输入的装置,其特征在于,所述匹配模块还用于:
确定所述不确定性信息的优先级;
根据优先级,依次根据所述不确定性信息在相应模型中匹配所述待输入汉字。
21.根据权利要求12所述的根据不确定性信息实现汉字输入的装置,其特征在于,所述装置还包括设置模块,
所述设置模块,用于接收用户的输入,设置所述不确定性信息的优先级。
22.一种根据不确定性信息实现汉字输入的装置,其特征在于,包括:接收模块、提取模块以及匹配模块;
所述接收模块,用于接收用户输入的包括一个或多个汉字、及一个或多个拼音和/或位置信息的文本字符串,其中,一个或多个拼音和/或位置信息对应一个或多个待输入汉字;
所述提取模块,用于识别所述一个或多个汉字的信息,并基于所述一个或多个汉字的信息、及所述一个或多个拼音和/或位置信息,提取关于待输入汉字的至少两种不确定性信息,其中,所述不确定性信息包括以下任意一种或多种信息:
声调信息、结构布局信息、偏旁部首信息、同音字信息和位置信息;
所述匹配模块,用于基于已经确定的汉字和所述不确定性信息以及所述不确定性信息对应的语言模型,确定并输出所述待输入汉字,所述语言模型的打分是通过对汉字语言模型和拼音语言模型进行打分得到的。
23.一种终端,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序实现权利要求1-11任一所述的方法。
CN201410041504.8A 2014-01-28 2014-01-28 根据不确定性信息实现汉字输入的方法和装置 Active CN104808806B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410041504.8A CN104808806B (zh) 2014-01-28 2014-01-28 根据不确定性信息实现汉字输入的方法和装置
US14/607,601 US10242296B2 (en) 2014-01-28 2015-01-28 Method and device for realizing chinese character input based on uncertainty information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410041504.8A CN104808806B (zh) 2014-01-28 2014-01-28 根据不确定性信息实现汉字输入的方法和装置

Publications (2)

Publication Number Publication Date
CN104808806A CN104808806A (zh) 2015-07-29
CN104808806B true CN104808806B (zh) 2019-10-25

Family

ID=53679371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410041504.8A Active CN104808806B (zh) 2014-01-28 2014-01-28 根据不确定性信息实现汉字输入的方法和装置

Country Status (2)

Country Link
US (1) US10242296B2 (zh)
CN (1) CN104808806B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104808806B (zh) * 2014-01-28 2019-10-25 北京三星通信技术研究有限公司 根据不确定性信息实现汉字输入的方法和装置
US9740684B2 (en) * 2015-02-18 2017-08-22 Lenovo (Singapore) Pte. Ltd. Determining homonyms of logogram input
WO2016181468A1 (ja) * 2015-05-11 2016-11-17 株式会社東芝 パターン認識装置、パターン認識方法およびプログラム
CN107870678A (zh) * 2016-09-26 2018-04-03 中兴通讯股份有限公司 一种手写输入方法及装置
CN106557260B (zh) * 2016-11-30 2020-12-29 深圳天珑无线科技有限公司 手写输入方法和装置
TWI631484B (zh) * 2017-03-07 2018-08-01 緯創資通股份有限公司 基於方向的文字輸入方法及其系統與電腦可讀取記錄媒體
CN107678560B (zh) * 2017-08-31 2021-10-08 科大讯飞股份有限公司 输入法的候选结果生成方法及装置、存储介质、电子设备
CN111090341A (zh) * 2019-12-24 2020-05-01 科大讯飞股份有限公司 输入法候选结果展示方法、相关设备及可读存储介质
CN112698734B (zh) * 2020-12-24 2024-04-26 维沃移动通信有限公司 候选词显示方法及装置、电子设备
CN113687724A (zh) * 2021-07-23 2021-11-23 维沃移动通信有限公司 候选字显示方法、装置和电子设备
WO2023146416A1 (en) * 2022-01-28 2023-08-03 John Chu Character retrieval method and apparatus, electronic device and medium
CN114937269B (zh) * 2022-05-05 2023-01-24 交通运输部水运科学研究所 一种基于英文和汉字联合的船舶号牌识别方法及系统
CN115187997B (zh) * 2022-07-13 2023-07-28 厦门理工学院 一种基于关键偏旁部首分析的零样本汉字识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408808A (zh) * 2008-11-17 2009-04-15 张家港市赫图阿拉信息技术有限公司 一种输入疑难汉字的方法
CN102298449A (zh) * 2011-08-21 2011-12-28 Tcl集团股份有限公司 一种快速选字的拼音输入法
CN102629158A (zh) * 2012-02-29 2012-08-08 广东威创视讯科技股份有限公司 基于触摸屏系统的文字输入方法及装置

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6292768B1 (en) * 1996-12-10 2001-09-18 Kun Chun Chan Method for converting non-phonetic characters into surrogate words for inputting into a computer
US7257528B1 (en) * 1998-02-13 2007-08-14 Zi Corporation Of Canada, Inc. Method and apparatus for Chinese character text input
US20020069058A1 (en) * 1999-07-06 2002-06-06 Guo Jin Multimodal data input device
FI112978B (fi) * 1999-09-17 2004-02-13 Nokia Corp Symbolien syöttö
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US7165019B1 (en) * 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US7013258B1 (en) * 2001-03-07 2006-03-14 Lenovo (Singapore) Pte. Ltd. System and method for accelerating Chinese text input
US20030020738A1 (en) * 2001-07-30 2003-01-30 Milburn Ross William Vinters Method and device for character input retrieval and indexing
CN1672118A (zh) * 2002-06-05 2005-09-21 苏荣斌 优化世界文字信息数字化运算编码输入方法及其信息处理系统
US20050027534A1 (en) * 2003-07-30 2005-02-03 Meurs Pim Van Phonetic and stroke input methods of Chinese characters and phrases
US7395203B2 (en) * 2003-07-30 2008-07-01 Tegic Communications, Inc. System and method for disambiguating phonetic input
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
US7398199B2 (en) * 2004-03-23 2008-07-08 Xue Sheng Gong Chinese romanization
US20050289463A1 (en) * 2004-06-23 2005-12-29 Google Inc., A Delaware Corporation Systems and methods for spell correction of non-roman characters and words
CN1577228B (zh) 2004-07-19 2011-04-20 北京中自汇河科技文化研究院 汉字结构输入法
US20060048055A1 (en) * 2004-08-25 2006-03-02 Jun Wu Fault-tolerant romanized input method for non-roman characters
KR100667533B1 (ko) 2005-06-02 2007-01-10 엘지전자 주식회사 병음과 획을 이용하여 중문을 입력하는 디지털 장치 및 그 중문 입력 방법
CN101369209B (zh) 2007-08-15 2013-08-21 北京三星通信技术研究有限公司 用于全混合输入的手写输入装置及其方法
US7669122B2 (en) * 2007-11-19 2010-02-23 O'dell Robert Barry Using input of rhyming characters for computer text entry of Chinese characters
CN102016837B (zh) * 2007-11-26 2014-08-20 沃伦·丹尼尔·蔡尔德 中文型文字及文字偏旁的分类及检索的系统与方法
KR100886687B1 (ko) 2007-12-12 2009-03-04 한국전자통신연구원 중국어 미등록어 자동 추출 방법 및 장치
US20090187399A1 (en) * 2008-01-22 2009-07-23 O'dell Robert B Using Homophones and Near-Homophones to Improve Methods of Computer Text Entry for Chinese Characters
TWI391832B (zh) * 2008-09-09 2013-04-01 Inst Information Industry 中文文章偵錯裝置、中文文章偵錯方法以及儲存媒體
US20100125449A1 (en) * 2008-11-17 2010-05-20 Cheng-Tung Hsu Integratd phonetic Chinese system and inputting method thereof
US9104244B2 (en) * 2009-06-05 2015-08-11 Yahoo! Inc. All-in-one Chinese character input method
CN102346558A (zh) 2010-07-26 2012-02-08 夏普株式会社 笔画结构输入方法和系统
JP2012079252A (ja) * 2010-10-06 2012-04-19 Fujitsu Ltd 情報端末装置、文字入力方法および文字入力プログラム
US8977535B2 (en) * 2011-04-06 2015-03-10 Pierre-Henry DE BRUYN Transliterating methods between character-based and phonetic symbol-based writing systems
CN102750000A (zh) * 2011-04-20 2012-10-24 武汉科技大学 双拼王输入法
CN102221976A (zh) * 2011-07-06 2011-10-19 上海驿创信息技术有限公司 基于非完整识别的词语快速输入方法
US8706472B2 (en) * 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US20130093668A1 (en) * 2011-10-12 2013-04-18 Samsung Electronics Co., Ltd. Methods and apparatus for transmitting/receiving calligraphed writing message
KR20130060145A (ko) * 2011-11-29 2013-06-07 삼성전자주식회사 수기 입력의 처리 방법 및 장치
CN103164865B (zh) * 2011-12-12 2016-01-27 北京三星通信技术研究有限公司 一种对手写输入进行美化的方法和装置
CN104808806B (zh) * 2014-01-28 2019-10-25 北京三星通信技术研究有限公司 根据不确定性信息实现汉字输入的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408808A (zh) * 2008-11-17 2009-04-15 张家港市赫图阿拉信息技术有限公司 一种输入疑难汉字的方法
CN102298449A (zh) * 2011-08-21 2011-12-28 Tcl集团股份有限公司 一种快速选字的拼音输入法
CN102629158A (zh) * 2012-02-29 2012-08-08 广东威创视讯科技股份有限公司 基于触摸屏系统的文字输入方法及装置

Also Published As

Publication number Publication date
US20150213333A1 (en) 2015-07-30
US10242296B2 (en) 2019-03-26
CN104808806A (zh) 2015-07-29

Similar Documents

Publication Publication Date Title
CN104808806B (zh) 根据不确定性信息实现汉字输入的方法和装置
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110717031B (zh) 一种智能会议纪要生成方法和系统
US10664660B2 (en) Method and device for extracting entity relation based on deep learning, and server
CN108984683B (zh) 结构化数据的提取方法、系统、设备及存储介质
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
CN107291783B (zh) 一种语义匹配方法及智能设备
CN106534548B (zh) 语音纠错方法和装置
CN102298582B (zh) 数据搜索和匹配方法和系统
CN103678684B (zh) 一种基于导航信息检索的中文分词方法
CN104142915B (zh) 一种添加标点的方法和系统
CN102682763B (zh) 修正语音输入文本中命名实体词汇的方法、装置及终端
CN110750959A (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN111339774A (zh) 文本的实体关系抽取方法和模型训练方法
CN106875949B (zh) 一种语音识别的校正方法及装置
CN107291828A (zh) 基于人工智能的口语查询解析方法、装置及存储介质
CN104462056B (zh) 用于呈现基于知识的信息的方法和信息操纵系统
CN111292752B (zh) 一种用户意图识别方法、装置、电子设备及存储介质
CN104166462A (zh) 一种文字的输入方法和系统
CN104809142A (zh) 商标查询系统和方法
CN101986293A (zh) 用于在搜索界面中呈现搜索答案信息的方法及设备
WO2015139497A1 (zh) 一种在搜索引擎中确定形近字的方法和装置
JP6846666B2 (ja) 翻訳文生成方法、翻訳文生成装置及び翻訳文生成プログラム
CN104143331A (zh) 一种添加标点的方法和系统
CN110232111A (zh) 一种文本显示方法、装置及终端设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant