CN113393831B - 基于至少双音素的语音输入操作方法及计算机可读介质 - Google Patents
基于至少双音素的语音输入操作方法及计算机可读介质 Download PDFInfo
- Publication number
- CN113393831B CN113393831B CN202010173444.0A CN202010173444A CN113393831B CN 113393831 B CN113393831 B CN 113393831B CN 202010173444 A CN202010173444 A CN 202010173444A CN 113393831 B CN113393831 B CN 113393831B
- Authority
- CN
- China
- Prior art keywords
- phoneme
- target
- computer system
- speech
- option
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000003213 activating effect Effects 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 29
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 claims description 20
- 238000004378 air conditioning Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 206010013887 Dysarthria Diseases 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000012905 input function Methods 0.000 description 2
- 206010013952 Dysphonia Diseases 0.000 description 1
- 208000010473 Hoarseness Diseases 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
- G06F3/04886—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures by partitioning the display area of the touch-screen or the surface of the digitising tablet into independently controllable areas, e.g. virtual keyboards or menus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/162—Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种基于至少双音素的语音输入操作方法包含,编码多个参考音素,以定义出多个分别相关联于多个操作选项的音素标签,其每一者至少包含选自所述参考音素的第一及第二参考音素;当根据已存储且与所述参考音素相关联的语音辨识数据或用户的个人音素数据且利用语音或声纹辨识技术确认出收集自用户的语音信号所含的第一及第二音素分别相似于第一及第二目标参考音素后,自所述音素标签决定出目标音素标签,其所含的所述第一及第二参考音素分别相同于所述第一及第二目标参考音素;及将所述操作选项其中一个与所述目标音素标签相关联的目标操作选项激活。
Description
技术领域
本发明涉及语音输入,特别是涉及一种基于至少双音素的语音输入操作方法及电脑程序产品。
背景技术
语音输入功能已广泛用来取代繁冗的手动输入。在应用上,电脑装置通常能将收集到用户所发出的语音经由利用语言模型及声学模型的语音辨识引擎成功辨识出与所述语音有关的字词、操作指令或应用程序后,所述电脑装置便能将有关的字词显示出来,或者执行有关的指令或应用程序。
然而,对于构音障碍患者而言,其往往无法发出特定的语音,而所发出语音常有含混不清、沙哑、单调、断续、发声音量过大或其他异常的特征。在此情况下,由于现有的语音辨识技术无法成功辨识构音障碍患者所发出的语音,致使构音障碍患者无法使用现有语音输入操作方式,例如作为语音沟通设备的平板电脑所提供的语音输入功能,与外界沟通。
因此,为了使构音障碍患者能够利用语音输入来操作电子装置或与外界沟通,如何发展出适用于构音障碍患者的语音输入操作技术遂成为目前重要的议题。
发明内容
本发明的目的在于提供一种基于至少双音素的语音输入操作方法及电脑程序产品,其能克服现有技术的至少一个缺点。
本发明所提供的一种基于至少双音素的语音输入操作方法,利用一个具有语音及声纹辨识技术的电脑系统来执行,并包含下步骤:(A)存储与多个彼此不同的参考音素相关联的语音辨识数据及对应于用户的个人音素数据,所述个人音素数据包含由所述用户所发出且分别对应于所述参考音素的多个语音的语音内容;(B)将所述参考音素编码,以定义出多个彼此不同的音素标签,其中每一个音素标签至少包含选自所述参考音素其中一者的第一参考音素及选自所述参考音素其中一者的第二参考音素;(C)将所述音素标签分别与多个彼此不同的操作选项相关联;(D)当收集到来自所述用户且至少包含连续的第一音素和第二音素的语音信号后,根据所述语音辨识数据且利用语音辨识技术,或者根据所述个人音素数据且利用声纹辨识技术,确认所述第一音素是否相似于所述参考音素其中的一者并确认所述第二音素是否相似于所述参考音素其中的一者;(E)当确认出相似于所述第一音素的第一目标参考音素及相似于所述第二音素的第二目标参考音素后,根据所述第一目标参考音素和所述第二目标参考音素,自所述音素标签决定出目标音素标签,所述目标音素标签所含的所述第一参考音素与所述第二参考音素分别相同于所述第一目标参考音素与所述第二目标参考音素;及(F)将所述操作选项其中一个与所述目标音素标签相关联的目标操作选项激活。
本发明的基于至少双音素的语音输入操作方法中,每一个参考音素为母音或音节。
本发明的基于至少双音素的语音输入操作方法中,每一个操作选项为符号、字元、文字内容、操作指令、应用程序及档案其中一者。当所述目标操作选项为符号时,所述电脑系统通过显示所述符号的方式激活所述目标操作选项。当所述目标操作选项为字元时,所述电脑系统通过显示所述字元的方式激活所述目标操作选项。当所述目标操作选项为文字内容时,所述电脑系统至少通过显示所述文字内容的方式激活所述目标操作选项。当所述目标操作选项为操作指令时,所述电脑系统通过执行所述操作指令的方式激活所述目标操作选项。当所述目标操作选项为应用程序时,所述电脑系统通过执行所述应用序的方式激活所述目标操作选项。当所述目标操作选项为档案时,所述电脑系统通过开启或播放所述档案的方式激活所述目标操作选项。
本发明的基于至少双音素的语音输入操作方法中,在步骤(C)与步骤(D)间,还包含以下步骤:(G)显示多个分别代表所述操作选项的图像,并在所述图像附近显示与所述操作选项相关联的所述音素标签。
本发明的基于至少双音素的语音输入操作方法中,当所述目标操作选项为文字内容时,所述电脑系统不仅通过显示所述文字内容的方式,还通过播放对应于所述文字内容的语音内容的方式激活所述目标操作选项。
本发明的基于至少双音素的语音输入操作方法中,所述电脑系统包含用于执行步骤(B)、(C)、(E)、(F)及(G)的使用终端及能与所述使用终端通讯且用于执行步骤(A)及(D)的辨识服务端,还包含以下步骤:在步骤(A)前,(H)通过所述使用终端,将收集到的所述个人音素数据传送至所述辨识服务端;在步骤(C)与步骤(D)间,(I)通过所述使用终端,收集所述语音信号,并将包含所述语音信号且有关所述用户的辨识请求送至所述辨识服务端,以便所述辨识服务端回应于所述辨识请求执行步骤(D);及在步骤(D)与步骤(E)间,(J)通过所述辨识服务端,当确认出所述第一目标参考音素与所述第二目标参考音素时,将含有所述第一目标参考音素及所述第二目标参考音素的辨识回复传送至所述使用终端,以使所述使用终端回应于所述辨识回复执行步骤(E)。
本发明所提供的一种电脑程序产品存储在电脑能读取媒体,包含多个程序指令,且当电脑装置执行所述程序指令时,能完成如以上所述的基于至少双音素的语音输入操作方法。
本发明的有益效果在于:由于先存储了用于语音辨识的语音辨识数据,以及用于声纹辨识且对应于用户的个人音素数据,因此不仅对于构音正常的用户,而且对于构音障碍患者的用户所发出的有限语音均能被精确地辨识出。此外,基于至少双音素的编码方式能定义出相对较多数量的音素标签,此等音素标签能被广泛地应用来与相对较多数量的操作选项建立关联性。于是,相较于现有利用相对复杂的语言模型及声学模型的语音辨识技术,能相对容易且快速地辨识出用户所发出且含有至少双音素的语音输入,以判定出所欲激活的目标操作选项。
附图说明
本发明的其他的特征及功效,将于参照图式的实施方式中清楚地呈现,其中:
图1是方块图,示例性地绘示用来实施本发明第一实施例的基于至少双音素的语音输入操作方法的电脑系统的架构;
图2是流程图,示例性地说明图1的电脑系统如何实施本发明第一实施例;
图3是示意图,示例性地绘示出由所述电脑系统的触控显示模块所显示并含有音素标签的虚拟键盘;
图4至图6是示意图,示例性地绘示出所述电脑系统在不同的使用情况下由所述触控显示模块所提供并含有音素标签的显示视窗;
图7是方块图,示例性地绘示出用来实施本发明第二实施例的基于至少双音素的语音输入操作方法的电脑系统的另一个架构;及
图8是流程图,示例性地说明图7的电脑系统如何实施本发明第二实施例。
具体实施方式
在本发明被详细描述前,应当注意在以下的说明内容中,类似的元件是以相同的编号来表示。
参阅图1,绘示出的电脑系统是实施成如智能型手机或平板电脑的电脑装置100,其是用来实施本发明第一实施例的基于至少双音素(Double-phoneme)的语音输入操作方法,并包含用于收集来自外部语音的语音收集模块1(例如,麦克风模块)、用作显示器和用户操作接口的触控显示模块2、存储模块3、喇叭模块4,以及电连接所述语音收集模块1、所述触控显示模块2、所述存储模块3和所述喇叭模块4的处理单元5。在本实施例中,所述处理单元5支援语音及声纹辨识技术。
以下,将参阅图1及图2来示例地说明所述电脑装置100如何执行所述第一实施例的语音输入操作方法。大体而言,所述语音输入操作方法可以包含以下步骤20-28。
首先,在步骤20中,所述电脑装置100将与多个彼此不同的参考音素相关联的语音辨识数据存储于所述存储模块3。在本实施例中,每一个参考音素可以为母音(Vowel)或音节(Syllable)。更明确地,所述电脑装置100根据收集自多个(构音正常)用户发出所述参考音素的语音内容并利用例如声学模型训练而获得用于辨识所述参考音素的所述语音辨识数据。举例来说,所述参考音素例如具有四个母音和四个音节,如以下表示1所示。
表1
然后,在步骤21中,通常在注册阶段,所述电脑装置100存储对应于用户的个人音素数据,所述个人音素数据包含由所述用户所发出且分别对应于多个彼此不同的参考音素的多个语音的语音内容。更明确地,在开始语音记录前,所述处理单元5例如能使所述触控显示模块2显示所述参考音素,以供所述用户作为有关所述参考音素的发声的指示,但不在此限。于是,在语音记录期间,所述语音收集模块1将收集到由所述用户发出对应于所述参考音素的多个语音的语音内容传送至所述处理单元5,且所述处理单元5将所述语音内容作为对应于所述用户的所述个人音素数据,并将所述个人音素数据存储于所述存储模块3。
特别要说明的是,为了记录具有能区别性的所述语音以建立符合个人声纹特性的个人语音数据,所述参考音素的选择能视所述用户的构音能力而定。换句话说,用户无须发出标准的每一个参考音素(即,母音或音节),只要用户能发出对应于每一个参考音素的语音彼此是能区别的即可。
然后,在步骤22中,所述处理单元5将所述参考音素编码,以定义出多个彼此不同的音素标签。在本实施例中,每一个音素标签仅包含选自所述参考音素其中一者的第一参考音素及选自所述参考音素其中一者的第二参考音素。若依照上述表1的范例,所述音素标签可以被定义如以下表2:
表2
值得注意的是,在其他实施态样中,若受限于用户贫乏的构音能力而导致能发出可以区别的参考音素的数量相对较少时,为了能定义出相当数量的音素标签,所述处理单元5定义出的每一个音素标签也可以包含三个或三个以上的参考音素。
接着,在步骤23中,所述处理单元5将定义出的所述音素标签分别与多个彼此不同的操作选项相关联,并能将所述音素标签与所述操作选项的关联关系存储于所述存储模块3。在本实施例中,每一个操作选项可以是符号、字元、文字内容、操作指令、应用程序或档案,其中的符号、字元和操作指令可以是所述触控显示模块2所显示的虚拟键盘所含的任一个符号、任一个字元和任一个操作指令,而其中的应用程序和档案可以是所述触控显示模块2所显示的任一个视窗所含应用程序和任一个文字、图形、音频或多媒体档案。应注意的是,在实际使用时,所述音素标签能被应用来与所述触控显示模块2所提供的不同显示视窗中的操作选项建立关联性。
以后,在使用所述电脑装置100期间,在步骤24中,所述处理单元5使所述触控显示模块2当下提供的显示视窗显示多个分别代表所述音素标签及所述操作选项的图像。更明确地说,将视所述触控显示模块2当下提供的显示视窗,会有对应的图像显示内容。以下,将就不同使用情况来示例说明。
参阅图3,绘示的示例是显示于所述触控显示模块2提供的显示视窗的虚拟键盘,此虚拟键盘显示了多个(编辑候选)字元的图像(如阿拉伯数字「1」、「2」等,以及英文字母「a」、「b」..等)以及多个分别在所述字元的图像附近且分别与所述字元相关联的音素标签(如「a a」、「a u」…、「e ha」、「ha e」等)、多个(编辑候选)数学符号的图像(如「<」、「>」)以及在所述数学符号的图像附近且与所述数学符号相关联的音素标签(如「hu u」、「hu e」)和多个(编辑候选)操作指令的图像(如代表数字键切换指令的「12#」、代表输入空格指令的「English(US)」和代表完成指令的「完成」等)以及多个分别在所述操作指令的图像附近且分别与所述操作指令相关联的音素标签(如「ha he」、「hu a」、「hu ha」)。
参阅图4,绘示的示例是所述触控显示模块2提供的「桌面」显示视窗,其中含有多个分别代表多个不同的应用程序(如「YouTube」、「EVA Facial Mouse」、「米家」等)的图像以及多个分别在所述应用程序的图像附近且分别与所述应用程序相关联的音素标签(如「aa」、「a u」、「a e」等)和多个分别代表多个操作指令(如「我的档案」、「电话」、「联络人」等)的图像以及多个分别在所述操作指令的图像附近且分别与所述操作指令相关联的音素标签(如「o ha」、「ha a」、「ha u」等)。
参阅图5,绘示的示例是所述电脑装置100在执行「YouTube」应用程序后由所述触控显示模块2提供的显示视窗,其中含有多个分别代表多个不同多媒体档案(如影片1~影片10)的图像(如图像1~图像10)以及多个分别在所述多媒体档案的图像附近且分别与所述多媒体档案相关联的音素标签(如「u e」、「e u」、「e e」等)和多个分别代表多个操作指令(如「首页」、「发烧影片」、「订阅内容」等)的图像以及多个分别在所述操作指令的图像附近且分别与所述操作指令相关联的音素标签(如「ha a」、「ha u」、「ha e」等)。
参阅图6,绘示的示例是所述电脑装置100在执行社群沟通应用程序后由所述触控显示模块2提供的显示视窗,其中含有多个分别代表多个文字内容的图像(如「我需要帮忙」、「我要小便」等)以及多个分别在所述文字内容的图像附近且分别与所述文字内容相关联的音素标签(如「a a」、「a i」等)和多个分别代表多个操作指令的图像(如「清除」、「传送和发音」、「存储」等)以及多个分别在所述操作指令的图像附近且分别与所述操作指令相关联的音素标签(如「uha」、「u hi」、「u he」等)。
在本实施例中,在此情况下,所述用户可以根据所述触控显示模块2当前的显示视窗所含的操作选项以及与其相关联的音素标签,发出与所欲操作选项相关联的音素标签有关的第一音素及第二音素。然而,在其他实施态样中,若每一个音素标签含有三个或三个以上的参考音素时,用户则必须发出与所欲操作选项相关联的音素标签有关的多个音素,其数量应与每一个音素标签所含的参考音素的数量一致。
于是,当所述处理单元5接收到由所述语音收集模块1收集到来自所述用户且包含连续的第一音素和第二音素的语音信号时,在步骤25中,所述处理单元5可以根据所述存储模块3存储的所述语音辨识数据且利用语音辨识技术,或者根据所述存储模块3存储的所述个人音素数据且利用声纹辨识技术,确认所述第一音素是否相似于所述参考音素其中的一者并确认所述第二音素是否相似于所述参考音素其中的一者。若所述处理单元5确认出相似于所述第一音素的第一目标参考音素及相似于所述第二音素的第二目标参考音素时,则流程进行步骤26。否则,流程进行步骤28。特别要说明的是,在实际执行步骤25时,所述处理单元5例如可以先根据所述语音辨识数据且利用语音辨识技术来执行所述第一音素与所述第二音素的确认操作,并在无法成功确认时,再利用所述个人音素数据且利用声纹辨识技术来执行所述第一音素与所述第二音素的确认操作,但不在此限。
在步骤26中,所述处理单元5根据所述第一目标参考音素及所述第二目标参考音素以及所述存储模块3存储的所述关联关系,自所述音素标签(即,在步骤24中当前显示视窗所含的音素标签)决定出一个目标音素标签。所述目标音素标签所含的所述第一参考音素与所述第二参考音素分别相同于所述第一目标参考音素与所述第二目标参考音素。
接着,在步骤27中,所述处理单元5根据所述存储模块3存储的所述关联关系将所述操作选项(即,在步骤24中当前显示视窗所含的操作选项)其中一个与所述目标音素标签相关联的目标操作选项(也就是所欲操作选项)激活。
当所述处理单元5确认出所述第一音素与所述第二音素其中一者与所述参考音素其中每一者均不相似时,在步骤28中,所述处理单元5使所述触控显示模块2显示辨识失败讯息。于是,所述用户能在重新发出含有与所欲操作选项相关联的语音标签有关的第一音素与第二音素后,所述电脑装置100重新执行步骤25的操作直到能确认出相似于所述第一音素与所述第二音素的参考音素为止。
以下,将进一步就所述目标操作选项的实际形式来示例地说明所述处理单元5如何激活所述目标操作选项的方式。
若所述目标操作选项为符号(如图3所示的虚拟键盘中的数学符号「>」)时,所述处理单元5通过使所述触控显示模块2显示所述符号在一个编辑区(图未示)的方式来激活所述目标操作选项。相似地,若所述目标操作选项为字元(如图3所示的虚拟键盘中的字元「a」)时,所述处理单元5通过使所述触控显示模块2显示所述字元的方式来激活所述目标操作选项。若所述目标操作选项为文字内容(如图6所示的显示视窗中的「我需要帮忙」)时,所述处理单元5不仅通过使所述触控显示面板2显示所述文字内容在沟通记录区(如图6所示的沟通记录区)方式,还通过使所述喇叭模块4播放对应于所述文字内容的语音内容的方式来激活所述目标操作选项。若所述目标操作选项为操作指令(如图4所示的显示视窗中的操作指令「电话」)时,所述处理单元5通过一个执行所述操作指令的方式(如使所述触控显示模块2从原本的桌面显示视窗切换至与「电话」有关的显示视窗)来激活所述目标操作选项。若所述目标操作选项为应用程序(如图4所示的显示视窗中的应用程序「YouTube」)时,所述处理单元5通过执行所述应用程序的方式来激活所述目标操作选项,并使所述触控显示模块2从原本的显示视窗(如图4所示)切换至与所述应用程序相关的显示视窗(如图5所示)。若所述目标操作选项为档案时,所述处理单元5通过开启或播放所述档案的方式来激活所述目标操作选项。
值得注意的是,上述第一实施例的语音输入操作方法能被编程为包含多个程序指令的电脑程序产品,并将所述电脑程序产品存储在电脑能读取媒体(例如,所述存储模块3)。当所述电脑装置100执行所述程序指令时,所述电脑装置100能完成如以上所述基于至少双音素的语音输入操作方法。
参阅图7,绘示出的另一个电脑系统不仅包含作为使用终端的所述电脑装置100,还包含辨识服务端200。所述电脑装置100与所述辨识服务端200协同来实施本发明第二实施例的基于至少双音素(Double-phoneme)的语音输入操作方法。在本实施例中,所述辨识服务端200能经由通讯网络300与所述电脑装置100通讯,并支援语音及声纹辨识技术。
以下,将参阅图7及图8来示例地说明所述电脑系统如何执行所述第二实施例的语音输入操作方法。大体而言,本实施例的语音输入操作方法为上述第一实施例的语音操作方法的变化实施例,并能包含以下步骤80-91。
首先,在步骤80中,所述辨识服务端200预先存储有所述语音辨识数据。
在步骤81中,在注册阶段,所述电脑装置100经由所述通讯网络300,将所述语音收集模块1收集到由一个用户发出对应于多个参考音素的多个语音的语音内容传送至所述辨识服务端200。
然后,在步骤82中,所述辨识服务端200将来自所述电脑装置100的所述语音内容作为对应于所述用户的个人音素数据并将其存储。值得一提的是,在实际使用时,所述辨识服务端200也能用作有关个人音素数据的云端服务器,并广为收集且存储大量其他用户(如构音异常的用户)的个人音素数据,并将此大量数据进一步利用人工智能的分析或进行机器学习能获得作为用于特殊语音(如构音异常用户所发出的语音)辨识的语音数据库(图未示)。
接着,所述电脑装置100依序执行步骤83至步骤85。由于所述电脑装置100在步骤83至步骤85的操作细节分别相同于上述步骤22至步骤24(图2)的所有操作细节,所以在此不再赘述。
然后,当所述电脑装置100的所述处理单元5接收到由所述语音收集模块1收集到来自所述用户且包含连续的第一音素和第二音素的语音信号时,所述电脑装置100经由所述通讯网络300,将一个包含所述语音信号且有关所述用户的辨识请求传送至所述辨识服务端200(步骤86)。
然后,所述辨识服务端200在接收到来自所述电脑装置100的所述辨识请求时,可以根据已存储的所述语音辨识数据且利用语音辨识技术,或者根据已存储且对应于所述用户的所述个人音素数据并利用声纹辨识技术(又或者根据上述用于特殊语音辨识的语音数据库且利用语音辨识技术),确认所述第一音素是否相似于所述参考音素其中的一者并确认所述第二音素是否相似于所述参考音素其中的一者(步骤87)。若所述辨识服务端200确认出相似于所述第一音素的第一目标参考音素及相似于所述第二音素的第二目标参考音素时(即,成功辨识),则流程进行步骤88。否则,流程进行步骤91。
在步骤88中,所述辨识服务端200经由所述通讯网络300,将含有所述第一目标参考音素及所述第二目标参考音素的辨识回复传送至所述电脑装置100。
然后,在步骤89中,所述电脑装置100的所述处理单元5根据所述辨识回复所含的所述第一目标参考音素及所述第二目标参考音素以及所述存储模块3存储的所述关联关系,自所述音素标签决定出一个目标音素标签。所述目标音素标签所含的所述第一参考音素与所述第二参考音素分别相同于所述第一目标参考音素与所述第二目标参考音素。
接着,所述电脑装置100的所述处理单元5,相似于上述步骤27(图2),根据所述存储模块3存储的所述关联关系将所述操作选项其中一个与所述目标音素标签相关联的目标操作选项(也就是所欲操作选项)激活(步骤90)。
当所述辨识服务端200确认出所述第一音素与所述第二音素其中一者与所述参考音素其中每一者均不相似时(也就是辨识失败),在步骤91中,所述辨识服务端200经由所述通讯网络300,将辨识失败讯息传送至所述电脑装置100。于是,所述电脑装置100的所述处理单元5能将来自于所述辨识服务端200的所述辨识失败讯息显示于所述触控显示模块2,以供所述用户观看。于是,所述用户能在重新发出含有与所欲操作选项相关联的语音标签有关的第一音素与第二音素后,所述电脑系统重新执行步骤86与步骤87的操作直到能确认出相似于所述第一音素与所述第二音素的参考音素为止。
综上所述,由于先存储了用于语音辨识的语音辨识数据,以及用于声纹辨识且对应于用户的个人音素数据,因此不仅对于构音正常的用户所发出的语音,而且对于构音障碍患者的用户所发出的有限语音均能被精确地辨识出。此外,基于至少双音素的编码方式能定义出相对较多数量的音素标签,此等音素标签能被广泛地应用来与相对较多数量的操作选项建立关联性。于是,相较于现有利用相对复杂的语言模型及声学模型的语音辨识技术,能相对容易且快速地语音辨识出用户所发出且含至少双音素的语音输入,以判定出所欲激活的目标操作选项。所以确实能达成本发明的目的。
以上所述者,仅为本发明的实施例而已,当不能以此限定本发明实施的范围,即凡依本发明权利要求书及说明书内容所作的简单的等效变化与修饰,皆仍属本发明的范围。
Claims (14)
1.一种基于至少双音素的语音输入操作方法,利用具有语音与声纹辨识技术的电脑系统来执行,其特征在于:包含以下步骤:
(A)存储与多个彼此不同的参考音素相关联的语音辨识数据及对应于用户的个人音素数据,所述个人音素数据包含由所述用户所发出且分别对应于所述参考音素的多个语音的语音内容,利用模型训练自多个构音正常用户发出所述参考音素的语音内容而获得能用于辨识所述参考音素的所述语音辨识数据;
(B)将所述参考音素编码,以定义出多个彼此不同的音素标签,其中每一个音素标签至少包含选自所述参考音素其中一者的第一参考音素及选自所述参考音素其中一者的第二参考音素;
(C)将所述音素标签分别与多个彼此不同的操作选项相关联;
(D)当收集到来自所述用户且至少包含连续的第一音素和第二音素的语音信号后,根据所述语音辨识数据且利用语音辨识技术,确认所述第一音素是否相似于所述参考音素其中的一者并确认所述第二音素是否相似于所述参考音素其中的一者;
(E)当确认出相似于所述第一音素的第一目标参考音素及相似于所述第二音素的第二目标参考音素后,根据所述第一目标参考音素和所述第二目标参考音素,自所述音素标签决定出目标音素标签,所述目标音素标签所含的所述第一参考音素与所述第二参考音素分别相同于所述第一目标参考音素与所述第二目标参考音素;及
(F)将所述操作选项其中一个与所述目标音素标签相关联的目标操作选项激活。
2.根据权利要求1所述的基于至少双音素的语音输入操作方法,其特征在于:在步骤(D)中,当收集到来自所述用户且至少包含连续的第一音素和第二音素的语音信号后,根据所述个人音素数据且利用声纹辨识技术,确认所述第一音素是否相似于所述参考音素其中的一者并确认所述第二音素是否相似于所述参考音素其中的一者。
3.根据权利要求1或2所述的基于至少双音素的语音输入操作方法,其特征在于:在步骤(A)中,每一个参考音素为母音或音节。
4.根据权利要求1或2所述的基于至少双音素的语音输入操作方法,其特征在于:
在步骤(C)中,每一个操作选项为符号、字元、文字内容、操作指令、应用程序及档案其中一者;及
在步骤(F)中,当所述目标操作选项为符号时,所述电脑系统通过显示所述符号的方式激活所述目标操作选项,
当所述目标操作选项为字元时,所述电脑系统通过显示所述字元的方式激活所述目标操作选项,
当所述目标操作选项为文字内容时,所述电脑系统至少通过显示所述文字内容的方式激活所述目标操作选项,
当所述目标操作选项为操作指令时,所述电脑系统通过执行所述操作指令的方式激活所述目标操作选项,
当所述目标操作选项为应用程序时,所述电脑系统通过执行所述应用程序的方式激活所述目标操作选项,及
当所述目标操作选项为档案时,所述电脑系统通过开启或播放所述档案的方式激活所述目标操作选项。
5.根据权利要求4所述的基于至少双音素的语音输入操作方法,其特征在于:在步骤(C)与步骤(D)间,还包含以下步骤:
(G)显示多个分别代表所述操作选项的图像,并在所述图像附近显示与所述操作选项相关联的所述音素标签。
6.根据权利要求5所述的基于至少双音素的语音输入操作方法,其特征在于:在步骤(F)中,当所述目标操作选项为文字内容时,所述电脑系统不仅通过显示所述文字内容的方式,还通过播放对应于所述文字内容的语音内容的方式激活所述目标操作选项。
7.根据权利要求6所述的基于至少双音素的语音输入操作方法,其特征在于:所述电脑系统包含用于执行步骤(B)、(C)、(E)、(F)及(G)的使用终端及能与所述使用终端通讯且用于执行步骤(A)及(D)的辨识服务端,所述语音输入操作方法还包含以下步骤:
在步骤(A)前,(H)通过所述使用终端,将收集到的所述个人音素数据传送至所述辨识服务端;
在步骤(C)与步骤(D)间,(I)通过所述使用终端,收集语音信号,并将包含所述语音信号且有关所述用户的辨识请求传送至所述辨识服务端,以便所述辨识服务端回应于所述辨识请求执行步骤(D);及
在步骤(D)与步骤(E)间,(J)通过所述辨识服务端,当确认出所述第一目标参考音素与所述第二目标参考音素时,将含有所述第一目标参考音素及所述第二目标参考音素的辨识回复传送至所述使用终端,以使所述使用终端回应于所述辨识回复执行步骤(E)。
8.一种基于至少双音素的语音输入操作方法,利用具有语音与声纹辨识技术的电脑系统来执行,其特征在于:包含以下步骤:
(A)存储与多个彼此不同的参考音素相关联的语音辨识数据及对应于用户的个人音素数据,所述个人音素数据包含由所述用户所发出且分别对应于所述参考音素的多个语音的语音内容,利用模型训练自多个构音正常用户发出所述参考音素的语音内容而获得能用于辨识所述参考音素的所述语音辨识数据;
(B)将所述参考音素编码,以定义出多个彼此不同的音素标签,其中每一个音素标签至少包含选自所述参考音素其中一者的第一参考音素及选自所述参考音素其中一者的第二参考音素;
(C)将所述音素标签分别与多个彼此不同的操作选项相关联;
(D)当收集到来自所述用户且至少包含连续的第一音素和第二音素的语音信号后,根据所述个人音素数据且利用声纹辨识技术,确认所述第一音素是否相似于所述参考音素其中的一者并确认所述第二音素是否相似于所述参考音素其中的一者;
(E)当确认出相似于所述第一音素的第一目标参考音素及相似于所述第二音素的第二目标参考音素后,根据所述第一目标参考音素和所述第二目标参考音素,自所述音素标签决定出目标音素标签,所述目标音素标签所含的所述第一参考音素与所述第二参考音素分别相同于所述第一目标参考音素与所述第二目标参考音素;及
(F)将所述操作选项其中一个与所述目标音素标签相关联的目标操作选项激活。
9.根据权利要求8所述的基于至少双音素的语音输入操作方法,其特征在于:在步骤(A)中,每一个参考音素为母音或音节。
10.根据权利要求8所述的基于至少双音素的语音输入操作方法,其特征在于:
在步骤(C)中,每一个操作选项为符号、字元、文字内容、操作指令、应用程序及档案其中一者;及
在步骤(F)中,当所述目标操作选项为符号时,所述电脑系统通过显示所述符号的方式激活所述目标操作选项,
当所述目标操作选项为字元时,所述电脑系统通过显示所述字元的方式激活所述目标操作选项,
当所述目标操作选项为文字内容时,所述电脑系统至少通过显示所述文字内容的方式激活所述目标操作选项,
当所述目标操作选项为操作指令时,所述电脑系统通过执行所述操作指令的方式激活所述目标操作选项,
当所述目标操作选项为应用程序时,所述电脑系统通过执行所述应用程序的方式激活所述目标操作选项,及
当所述目标操作选项为档案时,所述电脑系统通过开启或播放所述档案的方式激活所述目标操作选项。
11.根据权利要求10所述的基于至少双音素的语音输入操作方法,其特征在于:在步骤(C)与步骤(D)间,还包含以下步骤:
(G)显示多个分别代表所述操作选项的图像,并在所述图像附近显示与所述操作选项相关联的所述音素标签。
12.根据权利要求11所述的基于至少双音素的语音输入操作方法,其特征在于:在步骤(F)中,当所述目标操作选项为文字内容时,所述电脑系统不仅通过显示所述文字内容的方式,还通过播放对应于所述文字内容的语音内容的方式激活所述目标操作选项。
13.根据权利要求12所述的基于至少双音素的语音输入操作方法,其特征在于:所述电脑系统包含用于执行步骤(B)、(C)、(E)、(F)及(G)的使用终端及能与所述使用终端通讯且用于执行步骤(A)及(D)的辨识服务端,所述语音输入操作方法还包含以下步骤:
在步骤(A)前,(H)通过所述使用终端,将收集到的所述个人音素数据传送至所述辨识服务端;
在步骤(C)与步骤(D)间,(I)通过所述使用终端,收集语音信号,并将包含所述语音信号且有关所述用户的辨识请求传送至所述辨识服务端,以便所述辨识服务端回应于所述辨识请求执行步骤(D);及
在步骤(D)与步骤(E)间,(J)通过所述辨识服务端,当确认出所述第一目标参考音素与所述第二目标参考音素时,将含有所述第一目标参考音素及所述第二目标参考音素的辨识回复传送至所述使用终端,以使所述使用终端回应于所述辨识回复执行步骤(E)。
14.一种计算机可读介质,包含多个程序指令,且当处理单元执行所述程序指令时,能完成根据权利要求1至13其中任一项所述的基于至少双音素的语音输入操作方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010173444.0A CN113393831B (zh) | 2020-03-13 | 2020-03-13 | 基于至少双音素的语音输入操作方法及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010173444.0A CN113393831B (zh) | 2020-03-13 | 2020-03-13 | 基于至少双音素的语音输入操作方法及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113393831A CN113393831A (zh) | 2021-09-14 |
CN113393831B true CN113393831B (zh) | 2023-12-26 |
Family
ID=77616646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010173444.0A Active CN113393831B (zh) | 2020-03-13 | 2020-03-13 | 基于至少双音素的语音输入操作方法及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113393831B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0830190A (ja) * | 1994-04-12 | 1996-02-02 | Matsushita Electric Ind Co Ltd | 合成を基本とした会話訓練装置及び方法 |
CN102272827A (zh) * | 2005-06-01 | 2011-12-07 | 泰吉克通讯股份有限公司 | 利用语音输入解决模糊的手工输入文本输入的方法和装置 |
US8744856B1 (en) * | 2011-02-22 | 2014-06-03 | Carnegie Speech Company | Computer implemented system and method and computer program product for evaluating pronunciation of phonemes in a language |
KR20170116536A (ko) * | 2016-04-11 | 2017-10-19 | 김양선 | 음절 비교를 통한 음소 분석 장치 및 그 방법 |
CN109154950A (zh) * | 2016-03-22 | 2019-01-04 | 金太旻 | 基于语音执行韩文习得方法的系统、学习材料和计算机可读介质 |
CN109313898A (zh) * | 2016-06-10 | 2019-02-05 | 苹果公司 | 提供低声语音的数字助理 |
CN110223688A (zh) * | 2019-06-08 | 2019-09-10 | 安徽中医药大学 | 一种基于压缩感知的肝豆状核变性言语障碍的自评估系统 |
CN115410596A (zh) * | 2021-05-28 | 2022-11-29 | 宇康生科股份有限公司 | 构音异常语料扩增方法及系统、语音辨识平台,及构音异常辅助装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030088416A1 (en) * | 2001-11-06 | 2003-05-08 | D.S.P.C. Technologies Ltd. | HMM-based text-to-phoneme parser and method for training same |
US8015008B2 (en) * | 2007-10-31 | 2011-09-06 | At&T Intellectual Property I, L.P. | System and method of using acoustic models for automatic speech recognition which distinguish pre- and post-vocalic consonants |
US8489399B2 (en) * | 2008-06-23 | 2013-07-16 | John Nicholas and Kristin Gross Trust | System and method for verifying origin of input through spoken language analysis |
US10845956B2 (en) * | 2017-05-31 | 2020-11-24 | Snap Inc. | Methods and systems for voice driven dynamic menus |
-
2020
- 2020-03-13 CN CN202010173444.0A patent/CN113393831B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0830190A (ja) * | 1994-04-12 | 1996-02-02 | Matsushita Electric Ind Co Ltd | 合成を基本とした会話訓練装置及び方法 |
CN102272827A (zh) * | 2005-06-01 | 2011-12-07 | 泰吉克通讯股份有限公司 | 利用语音输入解决模糊的手工输入文本输入的方法和装置 |
US8744856B1 (en) * | 2011-02-22 | 2014-06-03 | Carnegie Speech Company | Computer implemented system and method and computer program product for evaluating pronunciation of phonemes in a language |
CN109154950A (zh) * | 2016-03-22 | 2019-01-04 | 金太旻 | 基于语音执行韩文习得方法的系统、学习材料和计算机可读介质 |
KR20170116536A (ko) * | 2016-04-11 | 2017-10-19 | 김양선 | 음절 비교를 통한 음소 분석 장치 및 그 방법 |
CN109313898A (zh) * | 2016-06-10 | 2019-02-05 | 苹果公司 | 提供低声语音的数字助理 |
CN110223688A (zh) * | 2019-06-08 | 2019-09-10 | 安徽中医药大学 | 一种基于压缩感知的肝豆状核变性言语障碍的自评估系统 |
CN115410596A (zh) * | 2021-05-28 | 2022-11-29 | 宇康生科股份有限公司 | 构音异常语料扩增方法及系统、语音辨识平台,及构音异常辅助装置 |
WO2022250724A1 (en) * | 2021-05-28 | 2022-12-01 | Aprevent Medical Inc. | Method of forming augmented corpus related to articulation disorder, corpus augmenting system, speech recognition platform, and assisting device |
Non-Patent Citations (2)
Title |
---|
Hidden Markov models with templates as non-stationary states: an application to speech recognition;Oded Ghitza;《Computer Speech & Language》;全文 * |
构音障碍患者病理语音特性分析与识别研究;薛珮芸;《中国博士学位论文全文数据库(信息科技辑)》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113393831A (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109036464B (zh) | 发音检错方法、装置、设备及存储介质 | |
EP3469592B1 (en) | Emotional text-to-speech learning system | |
CN109887497B (zh) | 语音识别的建模方法、装置及设备 | |
JP7432556B2 (ja) | マンマシンインタラクションのための方法、装置、機器および媒体 | |
KR102582291B1 (ko) | 감정 정보 기반의 음성 합성 방법 및 장치 | |
US10043519B2 (en) | Generation of text from an audio speech signal | |
KR102449875B1 (ko) | 음성 신호 번역 방법 및 그에 따른 전자 장치 | |
US11043213B2 (en) | System and method for detection and correction of incorrectly pronounced words | |
WO2001045088A1 (en) | Electronic translator for assisting communications | |
CN111711834B (zh) | 录播互动课的生成方法、装置、存储介质以及终端 | |
Dhanjal et al. | An automatic machine translation system for multi-lingual speech to Indian sign language | |
CN109817244B (zh) | 口语评测方法、装置、设备和存储介质 | |
Delgado et al. | Spoken, multilingual and multimodal dialogue systems: development and assessment | |
CN111899576A (zh) | 发音测试应用的控制方法、装置、存储介质和电子设备 | |
Fellbaum et al. | Principles of electronic speech processing with applications for people with disabilities | |
CN110647613A (zh) | 一种课件构建方法、装置、服务器和存储介质 | |
CN109272983A (zh) | 用于亲子教育的双语切换装置 | |
EP1475776B1 (en) | Dynamic pronunciation support for speech recognition training | |
JP2007018290A (ja) | 手書き文字入力表示支援装置及び方法並びにプログラム | |
CN113393831B (zh) | 基于至少双音素的语音输入操作方法及计算机可读介质 | |
CN110890095A (zh) | 语音检测方法、推荐方法、装置、存储介质和电子设备 | |
CN116229935A (zh) | 语音合成方法、装置、电子设备及计算机可读介质 | |
CN113990351A (zh) | 纠音方法、纠音装置及非瞬时性存储介质 | |
CN113221514A (zh) | 文本处理方法、装置、电子设备和存储介质 | |
TWI752437B (zh) | 基於至少雙音素的語音輸入操作方法及電腦程式產品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |