CN104635931A

CN104635931A - 一种利用口型输入文字的方法及装置

Info

Publication number: CN104635931A
Application number: CN201510069105.7A
Authority: CN
Inventors: 王均松
Original assignee: Shenzhen ZTE Mobile Telecom Co Ltd
Current assignee: Shenzhen ZTE Mobile Telecom Co Ltd
Priority date: 2015-02-10
Filing date: 2015-02-10
Publication date: 2015-05-20

Abstract

本发明公开了一种利用口型输入文字的方法及装置，属于文字输入技术领域。方法流程包括：获取用户的口型信息；根据所述口型信息在口型库中查找匹配的文字或语句；当所述匹配的文字或语句的数量至少为两个时，根据各文字或语句的使用频率确定输出结果。采用本发明可以解决现有技术根据口型输入文字准确率不高的问题。

Description

一种利用口型输入文字的方法及装置

技术领域

本发明涉及文字输入技术领域，尤其涉及一种利用口型输入文字的方法及装置。

背景技术

现有移动终端的文字输入方式一般包括键盘输入、手写输入、语音输入等，其中键盘输入、手写输入可统称为触摸输入，触摸输入是利用了汉语拼音与文字的对应关系实现文字输入，操作麻烦，并且在双手不方便操作时，触摸输入更难以实现。语音输入是利用语音与文字的对应关系实现文字输入，这种输入方式虽然不需要手动操作，但是如果在公共场合，语音输入容易泄露个人隐私。

现有技术已有根据口型输入文字的技术，但是由于口型与文字的对应关系几乎都是一对多的情况，所以现有口型输入技术往往存在文字输出的准确率不高的问题。

发明内容

有鉴于此，本发明要解决的技术问题是提供一种利用口型输入文字的方法及装置，以解决现有技术根据口型输入文字准确率不高的问题。

本发明解决上述技术问题所采用的技术方案如下：

根据本发明的一个方面，提供一种利用口型输入文字的方法，包括如下步骤：获取用户的口型信息；根据所述口型信息在口型库中查找匹配的文字或语句；当所述匹配的文字或语句的数量至少为两个时，根据各文字或语句的使用频率确定输出结果。

提供一种如上所述的方法，所述当所述匹配的文字或语句的数量至少为两个时，根据各文字或语句的使用频率确定输出结果，包括：判断当前的输出模式；若所述输出模式为普通模式，在所述匹配的文字或语句中查找使用频率最高的文字或语句作为输出结果；若所述输出模式为精准模式，将所述匹配的文字或语句按照使用频率的高低进行显示，提示用户进行选择；将用户选择的文字或语句作为输出结果。

提供一种如上所述的方法，当所述输出结果为语句时，所述获取用户的口型信息，包括：当开始进行口型输入时，开启摄像装置；截取所述摄像装置拍摄的视频的每个关键图像中的嘴部图像，或者截取所述摄像装置根据用户的指示依次拍摄的每个图像中的嘴部图像；对每一个所述嘴部图像进行分析并得到对应的口型信息。

提供一种如上所述的方法，所述根据所述口型信息在口型库中查找匹配的文字或语句，包括：依次将每个口型信息与所述口型库中的标准口型进行匹配查找对应的文字音节；根据所有口型信息的文字音节及其排序查找匹配的语句。

提供一种如上所述的方法，所述口型可包括普通话口型库和/或自定义口型库，当所述口型库包括自定义口型库时，所述获取用户的口型信息之前，所述方法还包括：针对用户指定的文字音节采集用户的口型信息；建立所述用户口型与所述文字音节的印射关系。

根据本发明的一个方面，提供一种利用口型输入文字的装置，所述装置包括：获取单元，用于获取用户的口型信息；匹配单元，用于根据所述口型信息在口型库中查找匹配的文字或语句；确定单元，用于在所述匹配的文字或语句的数量至少为两个时，根据各文字或语句的使用频率确定输出结果。

提供一种如上所述的装置，所述装置还包括：判断单元，用于判断判断当前的输出模式；所述确定单元，还用于在所述输出模式为普通模式，在所述匹配的文字或语句中查找使用频率最高的文字或语句作为输出结果；显示单元，还用于在所述输出模式为精准模式时，将所述匹配的文字或语句按照使用频率的高低进行显示，提示用户进行选择；所述确定单元，还用于将用户选择的文字或语句作为输出结果。

提供一种如上所述的装置，所述装置还包括：摄像装置启动单元，用于在开始进行口型输入时，开启摄像装置；所述获取单元，还用于截取所述摄像装置拍摄的视频的每个关键图像中的嘴部图像，或者截取所述摄像装置根据用户的指示依次拍摄的每个图像中的嘴部图像，并对每一个所述嘴部图像进行分析并得到对应的口型信息。

提供一种如上所述的装置，所述匹配单元，还用于依次将每个口型信息与所述口型库中的标准口型进行匹配查找对应的文字音节，并根据所有口型信息对应的文字音节及其排序查找匹配的语句。

提供一种如上所述的装置，所述装置还包括：扩展单元，用于针对用户指定的文字音节采集用户的口型信息，并建立所述用户的口型信息与所述文字音节的印射关系。

本发明的利用口型输入文字的方法及装置，可以根据获取的口型信息在口型库中查找匹配的文字或语句，并在匹配的文字或语句的数量至少为两个时，根据各文字或语句的使用频率确定输出结果，提高了文字输出的准确率。另外，对于不会普通话的用户群，特别是也不会拼音的用户群，特别是老年人，可以通过建立用户专属的自定义口型库保证他们也能够通过口型实现汉字输入，从而提高了用户的使用体验。并且，还提供了准确度不同的输出模式，用户可以根据实际需要进行选择，增加了操作的灵活性。。

附图说明

图1为与本发明的实施方式相关的移动终端的框图；

图2为可以运行根据本发明的实施方式的移动终端的无线通信系统的框图；

图3为本发明实施例提供的一种利用口型输入文字的方法的流程图；

图4为本发明实施例提供的一种利用口型输入文字的装置的模块是以图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现在将参考附图描述一种可实施本发明的示例性实施方式的移动终端。在下面的描述中，使用用于表示元件的诸如″模块″、″部件″或″单元″的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，″模块″与″部件″可以混合地使用。

移动终端可以以各种形式来实施。例如，本发明中描述的移动终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。然而，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

请参阅图1，是根据本发明的实施方式的移动终端的框图。移动终端100可以包括无线通信单元110、A/V(音频/视频)输入单元120、用户输入单元130、感测单元140、输出单元150、存储器160、接口单元170、控制器180和电源单元190等等。图1示出了具有各种组件的移动终端，但是应理解的是，并不要求实施所有示出的组件，可以替代地实施更多或更少的组件。

下面将详细描述移动终端的元件。

无线通信单元110通常包括一个或多个组件，其允许移动终端100与移动终端位于其中的无线通信系统或网络之间的无线电通信。例如，无线通信单元可以包括广播接收模块111、移动通信模块112、无线互联网模块113、短程通信模块114和位置信息模块115中的至少一个。

广播接收模块111经由广播信道从外部广播管理服务器接收广播信号和/或广播相关信息。广播信道可以包括卫星信道和/或地面信道。广播管理服务器可以是生成并发送广播信号和/或广播相关信息的服务器或者接收之前生成的广播信号和/或广播相关信息并且将其发送给终端的服务器。广播信号可以包括TV广播信号、无线电广播信号、数据广播信号等等。而且，广播信号可以进一步包括与TV或无线电广播信号组合的广播信号。

广播相关信息也可以经由移动通信网络未提供，并且在该情况下，广播相关信息可以由移动通信模块112来接收。

广播信号可以以各种形式存在。例如，其可以以数字多媒体广播(DMB)的电子节目指南(EPG)、数字视频广播-手持(DVB-H)的电子服务指南(ESG)等等的形式而存在。

广播接收模块111可以被构造为通过使用各种类型的广播系统接收信号广播。

特别地，广播接收模块111可以通过使用诸如多媒体广播-地面(DMB-T)、数字多媒体广播-卫星(DMB-S)、数字视频广播一手持(DVB-H、、已知为仅前向链路媒体的数据广播系统、地面数字广播综合服务(ISDB-T)等等的数字广播系统接收数字广播。广播接收模块111可以被构造为适合提供广播信号的各种广播系统以及上述数字广播系统。

经由广播接收模块111接收的广播信号和/或广播相关信息可以存储在存储器160(或者其它类型的存储介质)中。

移动通信模块112将无线电信号发送到基站(例如，接入点、节点B等等)、外部终端以及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话信号、视频通话信号或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。

无线互联网模块113支持用于移动终端的无线互联网接入。该模块可以内部或外部地耦接到终端。所实施的无线互联网接入技术可以包括WLAN(无线LAN)(Wi-Fi)、Wibro(无线宽带)、Wimax(全球微波互联接入)、HSDPA(高速下行链路分组接入)等等。

短程通信模块114是用于支持短程通信的模块。短程通信技术的一些示例包括蓝牙TM、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、紫蜂^TM等等。

位置信息模块115是用于检查或获取移动终端的位置的模块。位置信息模块的典型示例是GPS(全球定位系统)。根据当前的技术，GPS模块115计算来自三个或更多卫星的距离信息和准确的时间信息并且对于计算的信息应用三角测量法，从而根据经度、纬度和高度准确地计算三维当前位置信息。当前，用于计算位置和时间信息的一种方法是使用三颗卫星并且通过使用另外的一颗卫星校正计算出的位置和时间信息的误差。此外，GPS模块115能够通过实时地连续计算当前位置来计算速度信息。

A/V输入单元120被构造为接收音频或视频信号。A/V输入单元120可以包括相机121和麦克风1220相机121对在视频捕获模式或图像捕获模式中由图像捕获装置获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元151上。

由相机121处理的图像帧可以存储在存储器160(或其它存储介质)中或者经由无线通信单元110进行发送。可以根据移动终端的构造提供两个或更多相机1210。

麦克风122可以在电话通话模式、记录模式、语音识别模式等等中经由麦克风接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由移动通信模块112发送到移动通信基站的格式输出。麦克风122可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

用户输入单元130可以根据用户输入的命令生成键输入数据以控制移动终端的各种操作。用户输入单元130允许用户输入各种类型的信息，并且可以包括键盘、过载片、触摸板(例如，检测由于被接触而导致的电阻、压力、电容等等的变化的触敏组件)、滚轮、摇杆等等。特别地，当触摸板以层的形式叠加在显示单元151上时，可以形成触摸屏。

感测单元140检测移动终端100的当前状态，(例如，移动终端100的打开或关闭状态)、移动终端100的位置、用户对于移动终端100的接触(即，触摸输入)的有无、移动终端100的取向、移动终端100的加速或减速移动和方向等等，并且生成用于控制移动终端100的操作的命令或信号。例如，当移动终端100实施为滑动型移动电话时，感测单元140可以感测该滑动型电话是打开还是关闭。另外，感测单元140能够检测电源单元190是否提供电力或者接口单元170是否与外部装置耦接。感测单元140可以包括接近传感器1410将在下面结合触摸屏来对此进行描述。

接口单元170用作至少一个外部装置与移动终端100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。

识别模块可以是存储用于验证用户使用移动终端100的权利的各种信息并且可以包括用户识别模块(UIM)、订户识别模块(SIM)、通用订户识别模块(USIM)等等。另外，具有识别模块的装置(下面称为″识别装置″)可以采取智能卡的形式。因此，识别装置可以经由端口或其它连接装置与终端100连接。接口单元170可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端和外部装置之间传输数据。

另外，当移动终端100与外部底座连接时，接口单元170可以用作允许通过其将电力从底座提供到移动终端100的路径或者可以用作允许从底座输入的各种命令信号通过其传输到移动终端的路径。从底座输入的各种命令信号或电力可以用作用于识别移动终端是否准确地安装在底座上的信号。

输出单元150被构造为以视觉、音频和/或触觉方式提供输出(例如，音频信号、视频信号、警报信号、振动信号等等)。输出单元150可以包括显示单元151、音频输出模块152、警报单元153等等。

显示单元151可以显示在移动终端100中处理的信息。例如，当移动终端100处于电话通话模式时，显示单元151可以显示与通话或其它通信(例如，文本消息收发、多媒体文件下载等等)相关的用户界面(UI)或图形用户界面(GUI)。当移动终端100处于视频通话模式或者图像捕获模式时，显示单元151可以显示捕获的图像和/或接收的图像、示出视频或图像以及相关功能的UI或GUI等等。

同时，当显示单元151和触摸板以层的形式彼此叠加以形成触摸屏时，显示单元151可以用作输入装置和输出装置。显示单元151可以包括液晶显示器(LCD)、薄膜晶体管LCD(TFT-LCD)、有机发光二极管(OLED)显示器、柔性显示器、三维(3D)显示器等等中的至少一种。这些显示器中的一些可以被构造为透明以允许从外部观看，这可以称为透明显示器。典型的透明显示器可以例如为TOLED(透明有机发光二极管)显示器等等。根据特定想要的实施方式，移动终端100可以包括两个或更多显示单元(或其它显示装置)。例如，移动终端可以包括外部显示单元(未示出)和内部显示单元(未示出)。触摸屏可以被构造为能够检测触摸输入压力以及触摸输入位置和触摸输入面积。

音频输出模块152可以将在呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等中从无线通信单元110接收的或者在存储器160中存储的音频数据转换并且输出为声音。而且，音频输出模块152可以提供与由移动终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出模块152可以包括扬声器、蜂鸣器等等。

警报单元153可以提供输出以将事件的发生通知给移动终端100。典型的事件可以包括呼叫接收、消息接收、键信号输入、触摸输入等等。除了音频或视频输出之外，警报单元153可以以不同的方式提供输出以通知事件的发生。例如，警报单元153可以以振动的形式提供输出。当接收到呼叫、消息或一些其它进入通信(incoming communication)时，警报单元153可以提供触觉输出(即，振动)以将其通知给用户。通过提供这样的触觉输出，即使在用户的移动电话处于用户的口袋中时，用户也能够识别出各种事件的发生。也可以经由显示单元151或音频输出模块152提供通知事件的发生的输出。

存储器160可以存储用于由控制器180执行的处理和控制操作的软件程序等等，或者可以暂时地存储已经输出或将要输出的数据(例如，电话簿、消息、静态图像、视频等等)。而且，存储器160可以存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的数据。

存储器160可以包括至少一种类型的存储介质，所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电气可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且，移动终端100可以与通过网络连接执行存储器160的存储功能的网络存储装置协作。

控制器180通常控制移动终端的总体操作。例如，控制器180执行与语音通话、数据通信、视频通话等等相关的控制和处理。另外，控制器180可以包括用于再现(或回放)多媒体数据的多媒体模块1810多媒体模块181可以构造在控制器180内或者可以构造为与控制器180分离。

控制器180可以执行模式识别处理以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。

电源单元190在控制器180的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。

这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。

对于硬件实施，这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置。目的、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施。在一些情况下，这样的实施方式可以在控制器180中实施。

对于软件实施，诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施。软件代码可以存储在存储器160中并且由控制器180执行。

至此，已经按照其功能描述了移动终端。下面，为了简要起见，将描述诸如折叠型、直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示例。因此，本发明能够应用于任何类型的移动终端，并且不限于滑动型移动终端。

如图1中所示的移动终端100可以被构造为利用经由帧或分组发送数据的诸如有线和无线通信系统以及基于卫星的通信系统来操作。

现在将参考图2描述其中根据本发明的移动终端能够操作的这样的通信系统。

这样的通信系统可以使用不同的空中接口和/或物理层。例如，由通信系统使用的空中接口包括例如频分多址(FDMA)、时分多址(TDMA)、码分多址(CDMA)和通用移动通信系统(UMTS)(特别地，长期演进(LTE))、全球移动通信系统(GSM)等等。作为非限制性示例，下面的描述涉及CDMA通信系统，但是这样的教导同样适用于其它类型的系统。

参考图2，CDMA无线通信系统可以包括多个移动终端100、多个基站(BS)270、基站控制器(BSC)275和移动交换中心(MSC)2800MSC 280被构造为与公共电话交换网络(PSTN)290形成接口。MSC 280还被构造为与可以经由回程线路耦接到基站270的BSC 275形成接口。回程线路可以根据若干已知的接口中的任一种来构造，所述接口包括例如E1/T1、ATM，IP，PPP、帧中继、HDSL、ADSL或xDSL。可以理解的是，如图2中所示的系统可以包括多个BSC2750。

每个BS 270可以服务一个或多个分区(或区域)，由多向天线或指向特定方向的天线覆盖的每个分区放射状地远离BS 270。或者，每个分区可以由用于分集接收的两个或更多天线覆盖。每个BS 270可以被构造为支持多个频率分配，并且每个频率分配具有特定频谱(例如，1.25MHz，5MHz等等)。

分区与频率分配的交叉可以被称为CDMA信道。BS 270也可以被称为基站收发器子系统(BTS)或者其它等效术语。在这样的情况下，术语″基站″可以用于笼统地表示单个BSC 275和至少一个BS 270。基主站也可以被称为″蜂窝站″。或者，特定BS270的各分区可以被称为多个蜂窝站。

如图2中所示，广播发射器(BT)295将广播信号发送给在系统内操作的移动终端100。如图1中所示的广播接收模块111被设置在终端100处以接收由BT295发送的广播信号。在图2中，示出了几个全球定位系统(GPS)卫星300。卫星300帮助定位多个终端100中的至少一个。

在图2中，描绘了几个卫星300，但是理解的是，可以利用任何数目的卫星获得有用的定位信息。如图1中所示的GPS模块115通常被构造为与卫星300配合以获得想要的定位信息。替代GPS跟踪技术或者在GPS跟踪技术之外，可以使用可以跟踪移动终端的位置的其它技术。另外，至少一个GPS卫星300可以选择性地或者额外地处理卫星DMB传输。

作为无线通信系统的一个典型操作，BS 270接收来自各种移动终端10的反向链路信号。移动终端100通常参与通话、消息收发和其它类型的通信。特定基站270接收的每个反向链路信号被在特定BS 270内进行处理。获得的数据被转发给相关的BSC 2750BSC提供通话资源分配和包括BS 270之间的软切换过程的协调的移动管理功能。BSC 275还将接收到的数据路由到MSC 280，其提供用于与PSTN 290形成接口的额外的路由服务。类似地，PSTN 290与MSC 280形成接口，MSC与BSC 275形成接口，并且BSC 275相应地控制BS270以将正向链路信号发送到移动终端100。

下面，将具体介绍本发明的技术方案。

本发明提供了一种信息加密的方法，请参阅图3，方法流程包括如下步骤：

S310、获取用户的口型信息；

S320、根据该口型信息在口型库中查找匹配的文字或语句；

S330、当该匹配的文字或语句的数量至少为两个时，根据各文字或语句的使用频率确定输出结果。

具体的，可以在输入过程中对各文字或语句的使用次数进行统计，然后根据统计结果计算各文字或语句当前预设的时间段内的使用频率。

进一步的，步骤S330，当该匹配的文字或语句的数量至少为两个时，根据各文字或语句的使用频率确定输出结果，包括：

判断当前的输出模式；

若该输出模式为普通模式，在该匹配的文字或语句中查找使用频率最高的文字或语句作为输出结果；

若该输出模式为精准模式，将该匹配的文字或语句按照使用频率的高低进行显示，提示用户进行选择；

将用户选择的文字或语句作为输出结果。

具体的，可以在口型输入界面设置输出模式。输出模式可分为精准模式和普通模式。普通模式仅保证读音吻合，根据口型信息确定读音后，直接将与读音匹配的使用频率最高的文字或语句作为输出结果。精准模式提供一音多字或多短语的选择，当确定读音后，可以按使用频率的高低显示预设的前几位的文字或短语，也可以按使用频率的高低显示所有的文字或短语，并通过翻页功能实现对所有文字的浏览。

具体的，匹配的文字或语句按照使用频率的高低进行显示时，可以在时在每个文字或语句前显示其序号。该方法还可以通过下面的方式确定用户的选择：

1、根据用户输入的文字或语句前的序号确定选择的文字或语句，或者根据用户在触屏上的操作确定选择的文字或语句。

2、根据用户输入的语音确定选择的文字或语句。

3、根据用户输入的口型确定选择的序号，根据该序号确定选择的文字或语句。

进一步的，当该输出结果为语句时，步骤S310，获取用户的口型信息，包括：

当开始进行口型输入时，开启摄像装置；

截取该摄像装置拍摄的视频的每个关键图像中的嘴部图像，或者截取该摄像装置根据用户的指示依次拍摄的每个图像中的嘴部图像；

对每一个该嘴部图像进行分析并得到对应的口型信息。

具体的，截取嘴部图像，可以有效减少数据采集量和分析量，提高数据处理的速度。

具体的，可以在进行口型输入时设置输入方式是整句输入还是单字输入，如果输入方式是整句输入，还可以继续设置口型拍摄方式是视频拍摄还是图片拍摄。

如果选择视频拍摄，用户只需进行两步操作，即确定开始输入和确定输入完成，操作比较简单。如果选择图片拍摄，则需要用户在在开始输入后针对每个单字确认输入完成，并在每个单字输入完成后确认语句输入完成，这样将有助于提高匹配的准确率。

进一步的，步骤S320，根据该口型信息在口型库中查找匹配的文字或语句，包括：

依次将每个口型信息与该口型库中的标准口型进行匹配查找对应的文字音节；

根据所有口型信息的文字音节及其排序查找匹配的语句。

具体的，可以在口型库中设置常用语句数据，然后根据所有口型信息的文字音节及其排序在常用语句数据中查找匹配的语句。实际应用中，常用语句数据可以从互联网获取，也可以由用户自定义。

进一步的，该口型可包括普通话口型库和/或自定义口型库，当该口型库包括自定义口型库时，步骤S310，获取用户的口型信息之前，该方法还包括：

针对用户指定的文字音节采集用户的口型信息；

建立该用户口型与该文字音节的印射关系。

具体的，针对普通话比较标准的用户可以直接使用通用口型库；对于方言为主的用户，可以通过口型库建立软件建立专属的自定义口型库，使得利用口型输入文字的使用更加灵活。

进一步的，在针对普通话口型库和/或自定义口型库时，设置词语和/或语句的口型信息，包括：

在进行词语和/或语句口型输入时，针对词语和/或语句选定特征口型，该特征口型可以指代两个或两个以上的字，其中，该特征口型可以是口型变化趋势(或者称作口型变化状态)，即，通过该单个口型变化趋势即可指代两个或两个以上的字，可以理解，还可以指代较为简单的语句，或者，只需较少的口型变化趋势即可指代需要输入的语句。

具体的，针对上述口型变化趋势，可以采用多种实施方法，其中之一是，选择常用的固定化的词语，例如两个字的词语或者四个字的成语，通常而言，输入两个字的词语或者四个字的成语需要两个口型或者四个口型进行匹配，但是，本实施例可以采用的方式是，首先在根据两个字的词语或者四个字的成语确定口型输入时，提取这两个字或者四个字的口型变化趋势，该口型变化趋势即是由这两个字的词语或者四个字的成语连接而成，优选的，可以省去其中不重要的口型，因此，只需一个口型变化趋势即可输入两个字的词语或者四个字的成语。同时，可以理解的是，只需较少的口型变化趋势即可输入一句话，从而避免了逐个字进行口型适配。一是提高了输入效率，减少了某些单个字的误识别，二是降低了对系统匹配、处理资源的需求，节省了系统消耗。

本实施例利用口型输入文字的方法，可以根据获取的口型信息在口型库中查找匹配的文字或语句，并在匹配的文字或语句的数量至少为两个时，根据各文字或语句的使用频率确定输出结果，提高了文字输出的准确率。另外，对于不会普通话的用户群，特别是也不会拼音的用户群，特别是老年人，可以通过建立用户专属的自定义口型库保证他们也能够通过口型实现汉字输入，从而提高了用户的使用体验。并且，本实施例还提供了准确度不同的输出模式，用户可以根据实际需要进行选择，增加了操作的灵活性。

在上述实施例的基础上，本发明还提供了一种利用口型输入文字的装置，请参阅图4，该装置包括：

获取单元410，用于获取用户的口型信息；

匹配单元420，用于根据该口型信息在口型库中查找匹配的文字或语句；

确定单元430，用于在该匹配的文字或语句的数量至少为两个时，根据各文字或语句的使用频率确定输出结果。

进一步的，该装置还包括：

判断单元440，用于判断判断当前的输出模式；

确定单元430，还用于在该输出模式为普通模式时，在该匹配的文字或语句中查找使用频率最高的文字或语句作为输出结果；

显示单元450，还用于在该输出模式为精准模式时，将该匹配的文字或语句按照使用频率的高低进行显示，提示用户进行选择；

该确定单元430，还用于将用户选择的文字或语句作为输出结果。

进一步的，该装置还包括：

摄像装置启动单元460，用于在开始进行口型输入时，开启摄像装置；

该获取单元410，还用于截取该摄像装置拍摄的视频的每个关键图像中的嘴部图像，或者截取该摄像装置根据用户的指示依次拍摄的每个图像中的嘴部图像，并对每一个该嘴部图像进行分析并得到对应的口型信息。

进一步的，该匹配单元420，还用于依次将每个口型信息与该口型库中的标准口型进行匹配查找对应的文字音节，并根据所有口型信息对应的文字音节及其排序查找匹配的语句。

进一步的，该装置还包括：

扩展单元470，用于针对用户指定的文字音节采集用户的口型信息，并建立该用户的口型信息与该文字音节的印射关系。

本实施例的利用口型输入文字的装置，设有匹配单元，可以根据获取单元获取的口型信息在口型库中查找匹配的文字或语句，并在匹配的文字或语句的数量至少为两个时，由确定单元根据各文字或语句的使用频率确定输出结果，提高了文字输出的准确率。另外，还设有扩展单元，对于不会普通话的用户群，特别是也不会拼音的用户群，比如老年人，可以通过建立用户专属的自定义口型库保证他们也能够通过口型实现汉字输入，从而提高了用户的使用体验。并且，本实施例还提供准确度不同的输出模式，用户可以根据实际需要进行选择，增加了操作的灵活性。

以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质内所作的任何修改、等同替换和改进，均应在本发明的权利范围之内。

Claims

1.一种利用口型输入文字的方法，其特征在于，包括如下步骤：

获取用户的口型信息；

根据所述口型信息在口型库中查找匹配的文字或语句；

当所述匹配的文字或语句的数量至少为两个时，根据各文字或语句的使用频率确定输出结果。

2.根据权利要求1所述的方法，其特征在于，所述当所述匹配的文字或语句的数量至少为两个时，根据各文字或语句的使用频率确定输出结果，包括：

判断当前的输出模式；

若所述输出模式为普通模式，在所述匹配的文字或语句中查找使用频率最高的文字或语句作为输出结果；

若所述输出模式为精准模式，将所述匹配的文字或语句按照使用频率的高低进行显示，提示用户进行选择；

将用户选择的文字或语句作为输出结果。

3.根据权利要求2所述的方法，其特征在于，当所述输出结果为语句时，所述获取用户的口型信息，包括：

当开始进行口型输入时，开启摄像装置；

截取所述摄像装置拍摄的视频的每个关键图像中的嘴部图像，或者截取所述摄像装置根据用户的指示依次拍摄的每个图像中的嘴部图像；

对每一个所述嘴部图像进行分析并得到对应的口型信息。

4.根据权利要求3所述的方法，其特征在于，所述根据所述口型信息在口型库中查找匹配的文字或语句，包括：

依次将每个口型信息与所述口型库中的标准口型进行匹配查找对应的文字音节；

根据所有口型信息的文字音节及其排序查找匹配的语句。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述口型可包括普通话口型库和/或自定义口型库，当所述口型库包括自定义口型库时，所述获取用户的口型信息之前，所述方法还包括：

针对用户指定的文字音节采集用户的口型信息；

建立所述用户口型与所述文字音节的印射关系。

6.一种利用口型输入文字的装置，其特征在于，所述装置包括：

获取单元，用于获取用户的口型信息；

匹配单元，用于根据所述口型信息在口型库中查找匹配的文字或语句；

确定单元，用于在所述匹配的文字或语句的数量至少为两个时，根据各文字或语句的使用频率确定输出结果。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

判断单元，用于判断判断当前的输出模式；

所述确定单元，还用于在所述输出模式为普通模式，在所述匹配的文字或语句中查找使用频率最高的文字或语句作为输出结果；

显示单元，还用于在所述输出模式为精准模式时，将所述匹配的文字或语句按照使用频率的高低进行显示，提示用户进行选择；

所述确定单元，还用于将用户选择的文字或语句作为输出结果。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

摄像装置启动单元，用于在开始进行口型输入时，开启摄像装置；

所述获取单元，还用于截取所述摄像装置拍摄的视频的每个关键图像中的嘴部图像，或者截取所述摄像装置根据用户的指示依次拍摄的每个图像中的嘴部图像，并对每一个所述嘴部图像进行分析并得到对应的口型信息。

9.根据权利要求8所述的装置，其特征在于，

所述匹配单元，还用于依次将每个口型信息与所述口型库中的标准口型进行匹配查找对应的文字音节，并根据所有口型信息对应的文字音节及其排序查找匹配的语句。

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：

扩展单元，用于针对用户指定的文字音节采集用户的口型信息，并建立所述用户的口型信息与所述文字音节的印射关系。