CN107155121A - 语音控制文本的显示方法及装置 - Google Patents
语音控制文本的显示方法及装置 Download PDFInfo
- Publication number
- CN107155121A CN107155121A CN201710282869.3A CN201710282869A CN107155121A CN 107155121 A CN107155121 A CN 107155121A CN 201710282869 A CN201710282869 A CN 201710282869A CN 107155121 A CN107155121 A CN 107155121A
- Authority
- CN
- China
- Prior art keywords
- text
- voice command
- display
- control
- target control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000003860 storage Methods 0.000 claims description 29
- 238000012512 characterization method Methods 0.000 claims description 10
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 19
- 238000012545 processing Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 235000003140 Panax quinquefolius Nutrition 0.000 description 6
- 240000005373 Panax quinquefolius Species 0.000 description 6
- 230000006854 communication Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000001154 acute effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000000465 moulding Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42204—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
- H04N21/42206—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
- H04N21/42222—Additional components integrated in the remote control device, e.g. timer, speaker, sensors for detecting position, direction or movement of the remote control, microphone or battery charging device
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种语音控制文本的显示方法及装置,属于信息处理技术领域。当语音控制文本中存在目标控制文本时,则为目标控制文本配置不同于非目标控制文本的属性信息,以实现目标控制文本与非目标控制文本间的区别显示,从而加强用户对目标控制文本的记忆,提高终端对语音控制文本的理解率,以此提升用户通过语音控制终端的体验。另外,当语音控制文本中不包括目标控制文本时,则生成提示文本,并对提示文本中包括的标准语音控制指令进行区别显示,因此,通过提示文本可以提示用户输入终端能够识别的标准语音控制指令,从而加强用户对标准语音控制指令的记忆,同样提升用户通过语音控制终端的体验。
Description
技术领域
本发明涉及信息处理技术领域,特别涉及一种语音控制文本的显示方法及装置。
背景技术
随着终端技术的快速发展,智能电视的功能越来越强大,例如目前的智能电视通常都具备视频点播、网络视频通话和语音控制等功能。其中,语音控制智能电视,也即,智能电视根据采集的语音信息转换后的语音控制文本,执行相应的操作,且在语音控制过程中,智能电视还可以显示该语音控制文本。
目前,当用户通过语音控制智能电视时,智能电视在采集用户输入的语音信息,并将该语音信息转换为语音控制文本之后,直接按照预设属性信息显示该语音控制文本,也即将该语音控制文本包括的所有词语按照同一个预设属性信息显示。其中,预设属性信息包括预设字体大小、预设字体颜色等信息。
然而,在上述方法中,在智能电视显示该语音控制文本之后,用户并不确定该语音控制文本包括的哪个关键词可以指示智能电视即将执行的操作,也即,现有的智能电视的语音控制文本的显示方法不利于用户对智能电视能够识别的关键词形成记忆,从而影响用户通过语音控制智能电视的体验。
发明内容
为了解决现有的智能电视的语音控制过程不利于用户对智能电视能够识别的关键词形成记忆的问题,本发明实施例提供了一种语音控制文本的显示方法及装置。所述技术方案如下:
第一方面,提供了一种语音控制文本的显示方法,所述方法包括:
识别语音控制文本中的目标控制文本和非目标控制文本,其中,所述目标控制文本为与标准语音控制指令相匹配的文本,所述非目标控制文本为与所述标准语音控制指令不匹配的文本;
若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置不同于所述非目标控制文本的属性信息,以实现所述目标控制文本与所述非目标控制文本间的区别显示,所述属性信息包括用于表示显示字号、显示透明度、显示颜色和显示字体中的至少一个;
基于所述属性信息,显示所述语音控制文本,其中,所述目标控制文本与所述非目标控制文本的显示字号、显示透明度、显示颜色和显示字体中的至少一个不同。
可选地,所述识别语音控制文本中的目标控制文本和非目标控制文本,具体为:
从预置的语音控制模板库中选择与所述语音控制文本匹配的目标语音控制模板;
将所述语音控制文本中与所述目标语音控制模板匹配的文本确定为所述目标控制文本;
将所述语音控制文本中除所述目标控制文本之外的文本确定为所述非目标控制文本。
可选地,所述识别语音控制文本中的目标控制文本和非目标控制文本,具体为:
从存储的多个分支文本中查找与所述语音控制文本匹配的目标分支文本,所述分支文本是存储的指令树中构成每个分支的所有节点对应的文本;
将所述语音控制文本中与所述目标分支文本匹配的文本确定为所述目标控制文本;
将所述语音控制文本中除所述目标控制文本之外的文本确定为所述非目标控制文本。
可选地,所述若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置不同于所述非目标控制文本的属性信息,具体为如下方式中的至少一种:
若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置显示字号大于所述非目标控制文本的属性信息;或
若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置显示透明度低于所述非目标控制文本的属性信息;或
若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置显示颜色为有彩色的属性信息,为所述非目标控制文本配置显示颜色为无彩色的属性信息,所述有彩色为具有彩调的颜色,所述无彩色为不具有彩调的颜色;或
若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置显示字体为第一字体的属性信息,为所述非目标控制文本配置显示字体为第二字体的属性信息。
可选地,所述若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置不同于所述非目标控制文本的属性信息,具体为:
所述若语音控制文本中存在所述目标控制文本,则查找所述指令树中用于表征所述目标控制文本的节点;
将所述指令树中预先为所述节点配置的属性信息确定为所述节点表征的所述目标控制文本的属性信息。
第二方面,提供了一种语音控制文本的显示方法,所述方法包括:
识别语音控制文本中的目标控制文本和非目标控制文本,其中,所述目标控制文本为与标准语音控制指令相匹配的文本,所述非目标控制文本为与所述标准语音控制指令不匹配的文本;
若语音控制文本中不存在目标控制文本,则基于所述语音控制文本中的关键词,计算所述语音控制文本与预置的语音控制模板之间的相似度;
若所述相似度大于预设的相似度阈值,则基于预置的规则,根据所述语音控制模板生成提示文本,所述提示文本包括所述语音控制模板表征的标准语音控制指令;
为所述提示文本中的标准语音控制指令配置与所述提示文本中的其他文本不同的属性信息,以实现所述标准语音控制指令与所述其他文本的区别显示,所述属性信息包括用于表示显示字号、显示透明度、显示颜色和显示字体中的至少一个;
基于所述属性信息,显示所述提示文本,其中,所述标准语音控制指令与所述其他文本的显示字号、显示透明度、显示颜色和显示字体中的至少一个不同。
第三方面,提供了一种语音控制文本的显示方法,所述方法包括:
识别语音控制文本中的目标控制文本和非目标控制文本,其中,所述目标控制文本为与标准语音控制指令相匹配的文本,所述非目标控制文本为与所述标准语音控制指令不匹配的文本;
若语音控制文本中不存在目标控制文本,则基于所述语音控制文本中的关键词,计算所述语音控制文本与存储的每个分支文本之间的相似度,其中,所述分支文本是存储的指令树中构成每个分支的所有节点对应的文本;
若所述相似度大于预设的相似度阈值,则基于预置的规则,根据所述相似度表征的分支文本生成提示文本,所述提示文本包括所述分支文本表征的标准语音控制指令;
为所述提示文本中的标准语音控制指令配置与所述提示文本中的其他文本不同的属性信息,以实现所述标准语音控制指令与所述其他文本的区别显示,所述属性信息包括用于表示显示字号、显示透明度、显示颜色和显示字体中的至少一个;
基于所述属性信息,显示所述提示文本,其中,所述标准语音控制指令与所述其他文本的显示字号、显示透明度、显示颜色和显示字体中的至少一个不同。
第四方面,提供了一种语音控制文本的显示装置,所述装置包括:
识别模块,用于识别语音控制文本中的目标控制文本和非目标控制文本,其中,所述目标控制文本为与标准语音控制指令相匹配的文本,所述非目标控制文本为与所述标准语音控制指令不匹配的文本;
配置模块,用于若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置不同于所述非目标控制文本的属性信息,以实现所述目标控制文本与所述非目标控制文本间的区别显示,所述属性信息包括用于表示显示字号、显示透明度、显示颜色和显示字体中的至少一个;
显示模块,用于基于所述属性信息,显示所述语音控制文本,其中,所述目标控制文本与所述非目标控制文本的显示字号、显示透明度、显示颜色和显示字体中的至少一个不同。
可选地,所述识别模块包括:
选择单元,用于从预置的语音控制模板库中选择与所述语音控制文本匹配的目标语音控制模板;
第一确定单元,用于将所述语音控制文本中与所述目标语音控制模板匹配的文本确定为所述目标控制文本;
第二确定单元,用于将所述语音控制文本中除所述目标控制文本之外的文本确定为所述非目标控制文本。
可选地,所述识别模块包括:
第一查找单元,用于从存储的多个分支文本中查找与所述语音控制文本匹配的目标分支文本,所述分支文本是存储的指令树中构成每个分支的所有节点对应的文本;
第三确定单元,用于将所述语音控制文本中与所述目标分支文本匹配的文本确定为所述目标控制文本;
第四确定单元,用于将所述语音控制文本中除所述目标控制文本之外的文本确定为所述非目标控制文本。
可选地,所述配置模块包括如下单元中的至少一个:
第一配置单元,用于若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置显示字号大于所述非目标控制文本的属性信息;或
第二配置单元,用于若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置显示透明度低于所述非目标控制文本的属性信息;或
第三配置单元,用于若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置显示颜色为有彩色的属性信息,为所述非目标控制文本配置显示颜色为无彩色的属性信息,所述有彩色为具有彩调的颜色,所述无彩色为不具有彩调的颜色;或
第四配置单元,用于若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置显示字体为第一字体的属性信息,为所述非目标控制文本配置显示字体为第二字体的属性信息。
可选地,所述配置模块包括:
第二查找单元,用于若所述语音控制文本中存在所述目标控制文本,则查找所述指令树中用于表征所述目标控制文本的节点;
第五确定单元,用于将所述指令树中预先为所述节点配置的属性信息确定为所述节点表征的所述目标控制文本的属性信息。
第五方面,提供了一种语音控制文本的显示装置,所述装置包括:
识别模块,用于识别语音控制文本中的目标控制文本和非目标控制文本,其中,所述目标控制文本为与标准语音控制指令相匹配的文本,所述非目标控制文本为与所述标准语音控制指令不匹配的文本;
计算模块,用于若语音控制文本中不存在目标控制文本,则基于所述语音控制文本中的关键词,计算所述语音控制文本与预置的语音控制模板之间的相似度;
生成模块,用于若所述相似度大于预设的相似度阈值,则基于预置的规则,根据所述语音控制模板生成提示文本,所述提示文本包括所述语音控制模板表征的标准语音控制指令;
配置模块,用于为所述提示文本中的标准语音控制指令配置与所述提示文本中的其他文本不同的属性信息,以实现所述标准语音控制指令与所述其他文本的区别显示,所述属性信息包括用于表示显示字号、显示透明度、显示颜色和显示字体中的至少一个;
显示模块,用于基于所述属性信息,显示所述提示文本,其中,所述标准语音控制指令与所述其他文本的显示字号、显示透明度、显示颜色和显示字体中的至少一个不同。
第六方面,提供了一种语音控制文本的显示装置,所述装置包括:
识别模块,用于识别语音控制文本中的目标控制文本和非目标控制文本,其中,所述目标控制文本为与标准语音控制指令相匹配的文本,所述非目标控制文本为与所述标准语音控制指令不匹配的文本;
计算模块,用于若语音控制文本中不存在目标控制文本,则基于所述语音控制文本中的关键词,计算所述语音控制文本与存储的每个分支文本之间的相似度,其中,所述分支文本是存储的指令树中构成每个分支的所有节点对应的文本;
生成模块,用于若所述相似度大于预设的相似度阈值,则基于预置的规则,根据所述相似度表征的分支文本生成提示文本,所述提示文本包括所述分支文本表征的标准语音控制指令;
配置模块,用于为所述提示文本中的标准语音控制指令配置与所述提示文本中的其他文本不同的属性信息,以实现所述标准语音控制指令与所述其他文本的区别显示,所述属性信息包括用于表示显示字号、显示透明度、显示颜色和显示字体中的至少一个;
显示模块,用于基于所述属性信息,显示所述提示文本,其中,所述标准语音控制指令与所述其他文本的显示字号、显示透明度、显示颜色和显示字体中的至少一个不同。
本发明实施例提供的技术方案带来的有益效果是:由于目标控制文本为与标准语音控制指令相匹配的文本,因此,当语音控制文本中存在目标控制文本时,则为目标控制文本配置不同于非目标控制文本的属性信息,以实现目标控制文本与非目标控制文本间的区别显示。由于该属性信息包括显示字号、显示透明度、显示颜色和显示字体中的至少一个,因此当按照配置属性信息显示语音控制文本时,可以实现对语音控制文本中的目标控制文本的突出显示,从而加强用户对目标控制文本的记忆,以此增加用户下次输入的语音控制文本中包括目标控制文本的概率,也即提高终端对语音控制文本的理解率,从而提升用户通过语音控制终端的体验。另外,当语音控制文本中不包括目标控制文本时,则生成提示文本,由于提示文本中包括标准语音控制指令,因此通过提示文本可以提示用户终端能够识别的标准语音控制指令,从而加强用户对标准语音控制指令的记忆,同样提升用户通过语音控制终端的体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A是本发明实施例提供的一种语音控制文本的显示方法流程图;
图1B为本发明实施例提供的一种控制操作指令树和文娱内容分类指令树;
图2是本发明实施例提供的一种语音控制文本的显示装置框图;
图3是本发明实施例提供的另一种语音控制文本的显示装置框图;
图4是本发明实施例提供的另一种语音控制文本的显示装置框图;
图5是本发明实施例提供的另一种语音控制文本的显示装置框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在对本发明实施例进行详细地解释说明之前,先对本发明实施例的应用环境予以介绍。本发明实施例提供的语音控制文本的显示方法应用于终端,示例的,该终端可以是具有安卓(Android)操作系统或IOS(Internetworking Operating System,互联网际操作系统)操作系统的智能电视、智能手机、平板电脑等,该终端还可以是具有微软视窗(Window)操作系统或IOS操作系统的计算机、PDA(Personal Digital Assistant,个人数字助理)等,本发明实施例对此不做具体限定。
如图1A所示,该语音控制文本的显示方法包括:
步骤101:当终端被触发进入语音控制模式后,接收用户输入的语音数据,并对用户输入的语音数据进行识别,得到该语音数据对应的语音控制文本。
具体的,用户可以通过触发相应的固态按键或者语音按键来触发终端进入语音控制模式,同时用户也可以通过预设的激活词触发终端进入语音控制模式。
示例的,以智能电视为例,用户可以通过遥控器触发智能电视进入语音控制模式,即用户可以按下与智能电视相配套的遥控器上设置的语音控制按钮,进而遥控器向智能电视发送该按键的键值对应的红外编码值。当智能电视接收到该红外编码值时,通过解析该红外编码值得到该按键事件对应的控制指令。进而智能电视执行该控制指令,进入语音控制模式,智能电视的语音输入模块实时接收用户通过麦克风录入的语音数据。
进一步的,当终端被触发进入语音控制模式后,其语音输入模块实时监测用户输入的语音数据。具体的,语音输入模块具有拾音功能,可以通过麦克风实现。以智能手机为例,通过智能手机上设置的麦克风实现;以智能电视为例,通过与智能电视相配套的遥控器上设置的麦克风实现,当然,此处仅是举例说明,本发明实施例对此不做具体限定。
具体的,当终端进入语音控制模式后,可以通过语音输入模块中的麦克风接收用户输入的语音数据,并将用户输入的语音数据发送给语音识别模块。语音识别模块对用户输入的语音数据进行识别处理,得到其对应的语音控制文本。
示例的,当用户输入“电影快进三分钟”、“快进三分钟”、“暂停”、“播放”、“返回主页”等语音数据时,终端可以通过麦克风接收到用户输入的上述语音数据,进而根据上述语音数据识别得到其对应的语音控制文本“电影快进三分钟”、“快进三分钟”、“暂停”、“播放”、“返回主页”。
当然,用户在实际应用中可以输入任意的语音数据,终端可以通过麦克风接收用户输入的任意语音数据,并根据该语音数据识别得到其对应的语音控制文本。
需要说明的是,对用户输入的语音数据识别得到其对应的语音控制文本的操作可以参考相关技术,本发明实施例对此不再进行一一赘述。
示例的,可以通过下述公式依次实现对用户输入的语音数据识别得到其对应的语音控制文本的操作。
W1=argmaxP(W|X) (1)
其中,在上述公式(1)中,W表示数据库中存储的任一文字序列,该文字序列包括词或字,该数据库可以是用于做语音识别的语料库;X表示用户输入的语音数据,W1表示从存储文字序列中获得的可与用户输入的语音数据匹配的文字序列,P(W|X)表示该用户输入的语音数据可以变成文字的概率。
其中,在上述公式(2)中,W2表示该用户输入的语音数据与该文字序列之间的匹配程度,P(X|W)表示该文字序列可以发音的概率,P(W)表示该文字序列为词或字的概率,P(X)表示用户输入的语音数据为音频信息的概率。
需要说明的是,在上述的识别过程中,可以通过语言模型确定P(W),通过声学模型确定P(X|W),从而完成对该用户输入语音数据的语音识别,得到用户输入的语音数据对应的语音控制文本。
下述将分别对语言模型和声学模型进行简单介绍。
语言模型
语言模型通常利用链式法则,把文字序列为词或字的概率拆解成其中每个词或字的概率之积,也即是,将W拆解成w1、w2、w3、….wn-1、wn,并通过下述公式(3)确定P(W)。
P(W)=P(w1)P(w2|w1)P(w3|w1,w2)...P(wn|w1,w2,...,wn-1) (3)
其中,在上述公式(3)中,P(W)中的每一项都是在表示已知之前所有文字序列都为词或字的条件下当前文字序列为词或字的概率。
由于在通过上述公式(3)确定P(W)时,如果条件太长,则确定P(W)的效率将会较低,从而影响后续的语音识别。因此,为了提高确定P(W)的效率,通常会通过语言模型中的n元(n-gram)语言模型确定P(W)。在通过n-gram语言模型确定P(W)时,第n个词的概率只依赖于位于该词前面的第n-1个词,此时可以通过下述公式(4)确定P(W)。
P(W)=P(w1)P(w2|w1)P(w3|w2)...P(wn|wn-1) (4)
声学模型
由于在确定每个词时还需要确定每个词的发音,而确定每个词的发音则需要通过词典实现。其中,词典是与声学模型和语言模块并列的模型,且该词典可以把单个词转换成音素串。声学模型可以通过词典确定用户输入的语音数据中的文字该依次发哪些音,并通过诸如维特比(Viterbi)算法的动态规则算法找到各个音素的分界点,从而确定每个音素的起止时间,进而确定用户输入的语音数据与音素串的匹配程度,也即是,确定P(X|W)。
通常情况下,可以通过诸如高斯混合模型的分类器估计出每个音素的特征向量的分布,并在语音识别阶段,确定用户输入的语音数据中每一帧的特征向量xt由相应音素si产生的概率P(xt|si),把每一帧的概率相乘,就得到P(X|W)。
其中,分类器可以事先训练得到,具体操作为:通过MFCC(Mel FrequencyCepstrum Coefficient,频率倒谱系数)从训练数据中提取大量的特征向量,以及每个特征向量对应的音素,从而训练从特征到音素的分类器。
需要说明的是,在实际应用中,不仅可以通过上述方式确定P(X|W),还可以包括其他方式,比如,通过神经网络直接给出P(si|xt),用贝叶斯公式可以转换成P(xt|si),再相乘得到P(X|W),当然,此处仅是举例说明,并不代表本发明实施例局限于此。
步骤102:识别语音控制文本中的目标控制文本和非目标控制文本,其中,目标控制文本为与标准语音控制指令相匹配的文本,非目标控制文本为与标准语音控制指令不匹配的文本。
当终端确定用于控制终端的语音控制文本时,该语音控制文本中可能包括终端可以识别的关键词,也可能不包括终端可以识别的关键词,当该语音控制文本中包括终端可以识别的关键词时,为了加强用户对该语音信息中包括的终端可以识别的关键词的记忆,终端可以对该语音控制文本中包括的终端可以识别的关键词进行提示;当该语音控制文本中不包括终端可以识别的关键词时,为了引导用户输入的语音控制文本中包括终端可以识别的关键词,终端需要提示用户如何输入终端可以识别的语音控制文本。因此,当终端接收到语音控制文本时,需要对该语音控制文本进行识别,以判断该语音控制文本中是否包括目标控制文本,以便执行不同的操作。具体地,当该语音控制文本中存在目标控制文本时,执行步骤103,当该语音控制文本中不存在目标控制文本时,执行步骤105。
其中,标准语音控制指令为终端可以识别的语音控制指令,且该标准语音控制指令为终端中预先存储的语音控制指令。另外,终端确定的语音控制文本可以为终端采集的语音信息转换后的语音控制文本,也可以为终端直接从预先存储的多个语音控制文本中选择的语音控制文本。
具体地,终端识别语音控制文本中的目标控制文本和非目标控制文本可以通过如下两种可能的方式来实现。
第一种可能的方式,从预置的语音控制模板库中选择与该语音控制文本匹配的目标语音控制模板,将该语音控制文本中与该目标语音控制模板匹配的文本确定为目标控制文本;将该语音控制文本中除目标控制文本之外的文本确定为非目标控制文本。
其中,语音控制模板库中包括至少一个语音控制模板,且该语音控制模板至少包括一种标准语音控制指令,也即标准语音控制指令在终端内采用语音控制模板的形式存储。因此,在第一种可能的方式中,终端需对该语音控制文本进行文本分词,得到该语音控制文本包括的多个分词,将该多个分词和预置的语音控制模板库中的至少一个语音控制模板进行对比,判断该多个分词中是否包括该至少一个语音控制模板中的一个,如果该多个分词包括一个语音控制模板,则将该语音控制模板确定为目标语音控制模板。
如果该多个分词中没有包括任何语音控制模板,则对该多个分词中的每个分词进行归类,将归类后的该多个分词和至少一个语音控制模板对比,如果归类后的该多个分词包括一个语音控制模板,则将该语音控制模板确定为目标语音控制模板。
如果归类该后的该多个分词中仍没有包括任何语音控制模板,则确定该语音控制模板中不存在目标控制文本。其中,语音控制模板为服务器预先为终端配置的模板,该语音控制模板包括至少一个预设分词,该至少一个预设分词用于指示终端可以直接识别的分词。
另外,归类也即对属于一种类型的分词归为一类,如分词“80”、“70”或“3”等归类为分词“数字”,分词“刘德华”或“梁朝伟”等归类为分词“人名”,分词“爱情”“战争”或“武侠”等归类为分词“影视类型”。
例如,本发明实施例提供的语音控制模板库包括如下语音控制模板:语音控制模板一,音量+|大点|大点声|小点|小点声|加|减|静音|电视静音+|(数字);语音控制模板二,|我想看+(影视title);语音控制模板三,|我想看+(影视类型)+|片;语音控制模板四,|我想看+(人名即演员或导演)+演的|导演的|的+((影视名称)|电影|电视剧|(影视类型))+|片|剧;语音控制模板五,快进+|(数值)+|分|分钟|秒|小时;语音控制模板六,快退+(数值)+|分|分钟|秒|小时。其中,“|”代表可选的意思,也即“|”后面的内容可有可无,“()”代表一类数据,该类数据在数据库中代表一个字段,其中的值可以枚举。
示例的,当用户输入语音信息的语音控制文本为“给我把音量加30个”时,对该语音控制文本进行文本分词,得到该语音控制文本包括的多个分词“给”、“我”、“把”、“音量”、“加”、“30”和“个”,将该多个分词和上述语音控制模板进行对比,确定该多个分词中包括语音控制模板一“音量+|大点|大点声|小点|小点声|加|减|静音|电视静音+|(数字)”,此时将分词“音量”、“加”和“30”确定为目标控制文本。
示例的,当用户输入语音信息的语音控制文本为“我想看刘德华的爱情片”时,对该语音控制文本进行文本分词,得到该语音控制文本包括的多个分词“我想看”“刘德华”“的”“爱情”“片”,根据该多个分词和上述语音控制模板进行对比,没有直接查找到该语音控制文本对应的语音控制模板,对该多个分词中的每个分词进行归类,确定分词“刘德华”属于上述语音控制模板中的“人名”,分词“爱情”属于上述语音控制模板中的“影视类型”,确定该多个分词可以对应上述语音控制模板“|我想看+(人名即演员或导演)+演的|导演的|的+((影视名称)|电影|电视剧|(影视类型))+|片|剧”,此时将该多个分词均确定为目标控制文本。
另外,需要说明的是,服务器为终端配置的语音控制模板并不是固定不变的,也即服务器将根据终端历史采集到的语音信息定期更新语音控制模板。具体地,服务器统计当前时间之前该终端采集到的语音信息的语音控制文本,并确定各个语音控制文本的出现频率,按照各个语音控制文本的出现频率对该各个语音控制文本进行排序,获取该排序结果中顺序靠前的T个语音控制文本,并对该T个语音控制文本进行分词处理,对其中的部分分词进行归类,得到该T个语音控制文本的T个语音模板,对该T个语音模板中相似或相同模板进行归一处理,得到至少一个模板,如果该至少一个模板中存在不属于上述语音控制模板库的模板,则将该至少一个模板中不属于上述语音控制模板库的模板添加至上述语音控制模板库,也即服务器对语音控制模板库进行更新。其中,如果该T个语音模板中包括的分词中存在语义相近的分词,则确定该语义相近的分词中属于排序靠前的语音模板的分词,并将该语义相近的分词统一替换为该属于排序靠前的语音模板的分词。
例如,T为3,服务器对历史接收到的语音控制文本进行排序之后,确定该3个语音控制文本分别为“80年代的武侠片”、“我想看70年代的战争片”和“80年代的爱情片”,对该3个语音控制文本分别进行分词处理,语音信息“80年代的武侠片”对应的分词为“80”、“年代”、“的”、“武侠”和“片”,语音信息“我想看70年代的战争片”对应的分词为“我想看”、“70”、“年代”、“的”、“战争”和“片”,语音信息“80年代的爱情片”对应的分词为“80”、“年代”、“的”、“爱情”和“片”,其中,分词“80”和分词“70”属于数字,分词“武侠”、“战争”和“爱情”属于影视类型,因此,服务器确定该语音控制文本“80年代的武侠片”的语音模板为“(数字)+年代+的+(影视类型)+片”,语音控文本“我想看70年代的战争片”的语音模板为“我想看+(数字)+年代+的+(影视类型)+片”,语音控制本“80年代的爱情片”的语音模板为“(数字)+年代+(影视类型)+片”。由于这三个语音模板中,语音模板“(数字)+年代+的+(影视类型)+片”和语音模板“(数字)+年代+(影视类型)+片”为相同的语音模板,且该两个语音模板和语音模板“我想看+(数字)+年代+的+(影视类型)+片”为相似的语音模板,因此服务器对这三个语音模板进行归一化处理,得到该至少一个模板为“|我想看+(数字)+年代+|的+(影视类型)+|片”,如果上述语音控制模板库中不存在该至少一个模板,则服务器将该至少一个模板添加至语音控制模板库。
又例如,T为3,服务器对历史接收到的语音控制文本进行排序之后,确定该3个语音控制文本分别为“音量增大”、“音量加大”和“声音大点”,按照上述例子中的方法确定语音控制文本“音量增大”的语音模板为“音量+增大”,语音控制文本“音量加大”的语音模板为“音量+加大”,语音信息“声音大点”的语音模板为“声音+大点”,且该三个语音模板中,分词“音量”和分词“声音”属于语义相近的词,分词“增大”、分词“加大”和分词“大点”同属于语义相近的词,因此用排序靠前的语音模板中的分词“音量”替换其他语音模板中的分词“声音”,用排序靠前的语音模板中的分词“增大”替换其他语音模板中的分词“加大”和分词“大点”,替换后的3个语音模板分别为“音量+增大”、“音量+增大”和“音量+增大”,也即替换后的该3个语音模板属于相同的语音模板,因此该至少一个模板为“音量+增大”,如果上述语音控制模板库中不存在该至少一个模板,则服务器将该至少一个模板添加至上述语音控制模板库。
第二种可能的方式,从存储的多个分支文本中查找与该语音控制文本匹配的目标分支文本,将该语音控制文本中与该目标分支文本匹配的文本确定为目标控制文本,将该语音控制文本中除目标控制文本之外的文本确定为非目标控制文本。
其中,分支文本是存储的指令树中构成每个分支的所有节点对应的文本,也即终端中预先存储有多个指令树,对于该多个指令树中的任一个指令树,该指令树包括多个分支,该多个分支中的每个分支包括至少一个节点,该至少一个节点中的每个节点都有对应的文本,而分支文本由该分支的所有节点对应的文本构成。每一个指令树中的一个分支表征的都是一个标准语音控制指令,也即,标准语音控制指令在终端内采用指令树的形式存储,每一个分支的所有节点构成的分支文本都是一个标准语音控制指令。
因此,第二种可能的方式具体可以为:终端对该语音控制文本进行文本分词,得到该语音控制文本包括的多个分词,将该多个分词和存储的多个分支文本中的每个分支文本进行对比,判断该多个分词中是否包括该多个分支文本中的一个,如果该多个分词包括一个分支文本,则将该分支文本确定为目标分支文本,并将该语音控制文本中与目标分支文本匹配的文本确定为目标控制文本。如果该多个分词中没有包括任何一个分支文本,则确定该语音控制文本中不存在目标控制文本。
为了便于说明,在此对指令树的功能进行相关说明。也即,本发明实施例提供多个指令树,该多个指令树中的节点用于指示终端可以识别的关键词。在一种可能的实现方式中,该多个指令树为控制操作指令树和文娱内容分类指令树,其中控制操作指令树中的节点用于指示用于控制终端的指令,文娱内容分类指令树用于指示终端的网络资源的业务类型和不同的网络资源。另外需要说明的是,为了便于根据分支文本确定目标控制文本,分支分文可以不包括该分支的根节点对应的文本。
例如,图1B为本发明实施例提供的一种控制操作指令树和文娱内容分类指令树,其中,控制操作指令树的第一层根节点为控制指令,第二层节点用于指示控制终端的指令如“音量大小、播放进度快慢、开关机”,该控制操作指令树包括的分支分文可以为:音量大小、播放进度以及开关机。文娱内容分类指令树的第一层根节点为文娱内容分类,第二层节点为内容分类节点如“电影、电视剧、综艺、动漫”,第三层为内容名称节点如“我们来了、老九门、乡村爱情”,该文娱内容分类指令树包括的分支文本可以为:电影寒战、电影荒野猎人、电视剧老九门以及综艺我们来了等。
步骤103:若该语音控制文本中存在目标控制文本,则为目标控制文本配置不同于非目标控制文本的属性信息,以实现目标控制文本与非目标控制文本间的区别显示,该属性信息包括用于表示显示字号、显示透明度、显示颜色和显示字体中的至少一个。
当该语音控制文本中存在目标控制文本时,为了加强用户对目标控制文本的记忆,终端将为目标控制文本配置不同于非目标控制文本的属性信息。也即终端预先设置有目标控制文本的属性信息和非目标控制文本的属性信息,且该两个属性信息中的显示字号、显示透明度、显示颜色和显示字体中的至少一个不同,以实现对目标控制文本和非目标控制文本的区别显示。
示例的,属性信息可以为10位的显示编码串,从左往右数,属性信息的第1位至第2位字段为10进制字符串,用于表示显示字号。属性信息的第3位至第7位字段为16进制字符串,用于表示显示透明度。属性信息的第8位至第10位字段为16进制字符串,用于表示显示颜色。当然此处仅是举例说明,并不代表本发明实施例的属性信息局限于此。
需要说明的是,对于属性信息中用于表示显示字号、显示颜色、显示透明度和显示字体的四种字段的具体字段位数和具体字段位置,本发明实施例不做具体限定。
示例的,以语音控制文本为“电影快进三分钟”为例,其中,“快进三分钟”属于目标控制文本,“电影”属于非目标控制文本。终端对其中的目标控制文本“快进三分钟”配置的属性信息为18f16de5af1b,对其中的非目标控制文本“电影”配置的属性信息为12f16de5af1b。终端对目标控制文本“快进三分钟”和非目标控制文本“电影”对应的显示字号不相同,也即终端为目标控制文本“快进三分钟”和非目标控制文本“电影”配置的属性信息中用于表示显示字号的第1位至第2位字段不相同,即目标控制文本“快进三分钟”的显示字号大于非目标控制文本“电影”的显示字号。
在一种可能的实现方式中,终端为目标控制文本配置不同于非目标控制文本的属性信息,具体可以为如下方式中的至少一种:若该语音控制文本中存在目标控制文本,则为目标控制文本配置显示字号大于非目标控制文本的属性信息;或,若该语音控制文本中存在目标控制文本,则为目标控制文本配置显示透明度低于非目标控制文本的属性信息;或,若该语音控制文本中存在目标控制文本,则为目标控制文本配置显示颜色为有彩色的属性信息,为非目标控制文本配置显示颜色为无彩色的属性信息;或,若该语音控制文本中存在目标控制文本,则为目标控制文本配置显示字体为第一字体的属性信息,为非目标控制文本配置显示字体为第二字体的属性信息。
其中,有彩色为具有彩调的颜色,如红、黄或蓝等七彩颜色,无彩色为不具有彩调的颜色,如黑、白或灰等,而彩调是指光谱上的某种或某些色相。
示例的,若语音控制文本中包括目标控制文本,则终端对目标控制文本配置用于表征显示字号大于非目标控制文本的属性信息。终端通过对目标控制文本配置表征显示字号大于非目标控制文本的属性信息,可以将目标控制文本突出与非目标控制文本显示。并且,相对于非目标控制文本采用较大字号显示的目标控制文本,可以更吸引用户的注意力,给用户留下深刻的印象。久而久之,可以引导用户在语音输入的过程中直接输入目标控制文本,有效避免了用户输入的语音控制文本中包括非目标控制文本,提高了终端设备的语音控制响应速度和准确率,进而提高了终端设备的用户体验性。
示例的,若语音控制文本中包括目标控制文本,则终端对目标控制文本配置用于表示显示颜色为有彩色的属性信息;终端对其中的非目标控制文本配置用于表示显示颜色为无彩色的属性信息。通过将目标控制文本采用有彩色显示,将非目标控制文本采用黑色或者灰色等无彩色显示,彩色相对于黑色或者灰色,更容易吸引人的注意力。且彩色显示的目标控制文本,有助于加深用户的记忆力,在用户下次输入该语音控制文本时,更容易想到该目标控制文本。
示例的,若语音控制文本中包括目标控制文本,则终端对目标控制文本配置用于表示显示透明度小于非目标控制文本的属性信息。通常,显示透明度越大,其显示效果越差,即显示透明度大时,该显示内容容易被用户忽落。通过将目标控制文本的显示透明度设置的小于非目标控制文本,可以在终端显示该语音控制文本时,导致用户忽落对非目标控制文本的记忆。相反的,可以加深用户对目标控制文本的注意力,增强用户对目标控制文本的记忆。久而久之,可以引导用户在语音输入的过程中仅输入目标控制文本,有效避免了用户下次输入的语音控制文本中包括非目标控制文本。
示例的,终端预先设置目标控制文本的属性信息为:显示字号为三号,显示透明度为10%,显示颜色为黑色,显示字体为宋体。终端预先设置非目标控制文本的属性信息为:显示字号为小四号,显示透明度为10%,显示颜色为黑色,显示字体为宋体。由于目标控制文本的显示字号明显大于非目标控制文本的显示字号,因此当终端按照该预设的属性信息显示目标控制文本和非目标控制文本时,可以实现对该目标控制文本的突出显示。
值得注意的是,本发明实施例还提供了步骤102中的多个指令树中的节点的属性信息,每个节点的属性信息包括字体大小、字体透明度和字体颜色。因此,当终端中预先存储有多个指令树时,还可以根据该多个指令树中的节点的属性信息为目标控制文本配置属性信息。也即,当该语音控制文本中存在目标控制文本,则查找指令树中用于表征目标控制文本的节点;将指令树中预先为节点配置的属性信息确定为该节点表征的目标控制文本的属性信息。具体地,确定目标控制文本中的各个分词,对于目标控制文本中的各个分词中的每个分词,从预先存储的指令树中查找该分词对应的节点,当查找到该分词对应的节点时,将该预先为该节点配置的属性信息确定为该分词的属性信息。对于非目标控制文本,终端可以预先设置非目标控制文本的显示方式,也可以在根据指令树中的节点的属性信息确定目标控制文本的属性信息之后,确定与目标控制文本的属性信息不同的非目标控制文本的属性信息。
例如,当用户触发OSD(on-screen display,屏幕菜单式调节)监听线程时,终端监听到创建OSD线程信号,当终端监听到创建OSD线程信号时,终端需对OSD线程进行消息分发,以确定该OSD线程的类型。当确定该OSD线程为语音输入OSD线程时,创建OSD环境,也即采用预设默认值初始化字体的属性如字体、大小等,并判断服务器是否为该终端配置上述多个指令树。当确定服务器为该终端配置该多个指令树时,阻塞等待语音信息,当检测到有语音信息输入时,采集语音信息,将该语音信息转换为语音控制文本之后,按照上述方法确定语音控制文本中的目标控制文本和非目标控制文本的属性信息,根据获取的信息更改初始化的字体的属性,并将更改后的OSD区域信息与内存中的帧数据进行信息同步与叠加,然后将叠加后的数据通过DSP(digital signal processing,数字信号处理)技术写入已创建的OSD环境以待显示。
可选地,在本发明实施例中,针对该多个指令树中的任一个节点,该节点的属性信息也可以为预先设置的属性信息,也即服务器预先设置该多个指令树中任一节点的显示字号、显示透明度和显示颜色。在一种可能的实现方式中,对于该多个指令树中的任一节点,该节点的属性信息也可以用预先设置的10位编码串表示,但是该10位编码串并不会随该节点对应的关键词的使用频率变化而变化。
另外需要说明的是,由于每个终端在一段时间内采集到的语音控制文本中包括的终端可以识别的关键词并不相同,并且对于文娱内容分类指令树中的第三层的内容名称节点也需根据网络资源的变化而进行更新,因此,在本发明实施例中,服务器每隔预设时间更新为每个终端配置的指令树,也即服务器每隔预设时间更新指令树中的各个节点和各个节点的属性信息。
步骤104:基于该属性信息,显示该语音控制文本,其中,目标控制文本与非目标控制文本的显示字号、显示透明度、显示颜色和显示字体中的至少一个不同。
在本发明实施例中,为了加强用户对终端可以识别的关键词的记忆,在显示语音控制文本时,对于该语音控制文本中的目标控制文本按照该目标控制文本的属性信息进行显示,对于该语音控制文本中的非目标控制文本按照该非目标控制文本的属性信息进行显示,也即按照目标控制文本的显示字号、显示透明度、显示颜色和显示字体对该目标关键词进行突出显示,以便用户可以清楚了解到终端可以识别的关键词,并形成对该目标控制文本的记忆。
步骤105:若语音控制文本中不存在目标控制文本,则生成提示文本,该提示文本包括标准语音控制指令。
当语音控制文本中不存在目标控制文本时,为了提示用户终端可以识别的语音控制指令,终端可以生成提示文本,该提示文本包括终端可以识别的标准语音控制指令。
由于在步骤102中,终端识别语音控制文本中的目标控制文本和非目标控制文本有两种可能的方式,因此,在此终端生成提示文本也有两种可能的方式。
第一种可能的方式,若语音控制文本中不存在目标控制文本,则基于语音控制文本中的关键词,计算语音控制文本与预置的语音控制模板之间的相似度;若相似度大于预设的相似度阈值,则基于预置的规则,根据语音控制模板生成提示文本,该提示文本包括该语音控制模板表征的标准语音控制指令。
在本发明实施例中,在预置的语音控制模板库中存在至少一个语音控制模板,该至少一个语音控制模板中的每个语音控制模板对应一个标准语音控制指令。因此,在第一种可能的方式中,根据预置语音控制模板库中的至少一个语音控制模板,确定语音控制文本和该至少一个语音控制模板语音控制模板中的每个语音控制模板之间的相似度,得到多个相似度。并判断该多个相似度中是否存在相似度大于预设的相似度阈值,当存在相似度大于预设的相似度阈值时,根据相似度大于预设的相似度阈值的语音控制模板,生成提示文本,也即该提示文本包括该语音控制模板表征的标准语音控制指令。
其中,在本发明实施例中,可以采用基于拼音与归一表的编辑距离计算该语音控制文本与各个语音控制模板之间的相似度,也可以采用词向量模型计算该语音控制文本与各个语音控制模板之间的相似度,还可以采用余弦相似度或者汉明距离计算该语音控制文本与各个语音控制模板之间的相似度,当然此处仅是举例说明,并不代表本发明局限于此。
下面将以采用基于拼音与归一表的编辑距离计算该语音控制文本与各个语音控制模板之间的相似度为例进行详细说明。具体地,对于各个语音控制模板中的任一个语音控制模板,采用基于拼音与归一表的编辑距离计算该语音控制文本与该语音控制模板之间的相似度可以通过以下几个步骤实现。
(1)终端将该语音控制文本中存在同义词、近义词的词语依次采用其同义词或近义词进行扩展替换,得到该语音控制文本对应的所有可能的语句串,示例的,对该语音控制文本进行同义词或近义词扩展替换后得到n条语音控制文本。
(2)将上述的n条语音控制文本分别转换成其对应的拼音串,然后再利用预先定义的拼音对应表,将n条拼音串中存在相近发音的字母依次扩展替换成其相近发音,示例的,可以得到m条拼音串,m≥n。其中,预先定义的拼音对应表用于指示存在相近发音的字母,如某些地区h与f易混,l与n易混,该拼音对应表中用于指示h与f为相近发音的字母,l与n为相近发音的字母。
(3)将(2)中得到的m条拼音串与该语音控制模板对应的实体转换所得拼音分别进行编辑距离计算,编辑距离为将一个字符串通过替换、插入、删除等操作转换成另一个字符串所需的最小操作次数。假如,该控制控制模板对应的实体个数为M个,则语音控制文本与该语音控制模板之间的相似度计算公式如下:
s=max[1-D(ai,bj)/max(len(ai),len(bi))]
其中,s代表语音控制文本与该语音控制模板之间的相似度;ai代表该m条拼音串中第i条拼音串,0<i≤m;bj代表该M个实体中第j个实体的字符串对应的拼音串,0<j≤M;len(ai)为该m条拼音串中第i条拼音串的长度;len(bj)为该M个实体中第j个实体的字符串对应的拼音串的长度;D(ai,bj)为第i条拼音串与第j个实体的字符串对应的拼音串之间的编辑距离。
另外,该语音控制模板对应的实体为该语音控制模板中包括的所有可能的标准语音控制指令,如语音控制模板“音量+|大点|加|小点|减|静音+|(数字)”对应的实体为:1)音量大点;2)音量小点;3)音量加;4)音量减;5)音量静音;6)音量加数字;7)音量减数字。
当确定出的相似度大于预设的相似度阈值时,表明该语音控制模板对应的标准控制指令代表用户要输入的操作指令。此时,生成该提示文本,该提示文本用于引导用户语音输入该语音控制模板对应的标准控制指令,即提示文本包括与该语音控制模板对应的标准语音控制指令。
例如,语音控制文本为“声音太吵,调小点”,语音控制指模板为“音量+|大点|加|小点|减|静音+|(数字)”,下面对上述基于拼音与归一表的编辑距离计算语音控制文本与该语音控制模板之间的相似度的过程进行详细说明:
(1)对语音控制文本“声音太吵,调小点”进行同义词和近义词扩展替换得到5条语音控制文本:声音太吵,小点;声音太大,关小点;音量太大,小点;音量太大,关小点;音量太吵,关小点。
(2)将上述的5条语音控制文本分别转换成其对应的拼音串如下:1)Sheng yintai chao,xiao dian;2)Sheng yin tai da,guan xiao dian;3)Yin liang tai da,xiaodian;4)Yin liang tai da,guan xiao dian;5)Yin liang tai chao,guan xiao dian。然后,利用预先定义的拼音对应表,将上述5条拼音串中存在相近发音的字母依次扩展替换成其相近发音,得到10条拼音串如下:1)Sheng yin tai chao,xiao dian;2)Sheng ying taichao,xiao dian;3)Sheng yin tai da,guan xiao dian;4)Sheng ying tai da,guanxiao dian;5)Yin liang tai da,xiao dian;6)Ying liang tai da,xiao dian;7)Yinliang tai da,guan xiao dian;8)Ying liang tai da,guan xiao dian;9)Yin liangtai chao,guan xiao dian;10)Ying liang tai chao,guan xiao dian。
(3)语音控制模板“音量+|大点|加|小点|减|静音+|(数字)”包括的实体如下:1)音量大点;2)音量小点;3)音量加;4)音量减;5)音量静音;6)音量加数字;7)音量减数字。该语音控制模板“音量+|大点|加|小点|减|静音+|(数字)”包括的实体对应的拼音串如下:1)Yin liang da dian;2)yin liang xiao dian;3)yin liang jia;4)yin liang jian;5)yin liang jing yin;6)yin liang jia num;7)yin liang jian num。
(4)根据上述公式分别计算上述10条拼音串中的任一条拼音串与语音控制模板“音量+|大点|加|小点|减|静音+|(数字)”包括的实体对应的7条拼音串中的各条拼音串之间的相似度,并将上述计算得到的相似度之间的最大值确定为该语音控制文本“声音太吵,调小点”与语音控制模板“音量+|大点|加|小点|减|静音+|(数字)”之间的相似度。
通过计算发现拼音串“Yin liang tai da,xiao dian”与语音控制模板“音量+|大点|加|小点|减|静音+|(数字)”包括的实体对应的第2条拼音串“yin liang xiao dian”之间的相似度最大,该相似度为0.762,故语音控制文本“声音太吵,调小点”与语音控制模板“音量+|大点|加|小点|减|静音+|(数字)”之间的相似度为0.762,也即语音控制文本“声音太吵,调小点”与语音控制模板中的实体“音量+小点”最像似。且该相似度0.762大于预设的相似度阈值0.5,因此终端按照预置的规则,根据该语音控制模板中的实体“音量+小点”生成相应的提示文本。如,根据语音控制模板中的实体“音量+小点”生成的提示文本可以是“如果您想调节音量,可以说音量小点”,当然,此处仅是举例说明,并不代表本发明实施例中根据语音控制模板中的实体“音量+小点”生成的提示文本局限于此,该提示文本还可以是“您可以说音量小点”。
第二种可能的方式,若语音控制文本中不存在目标控制文本,则基于语音控制文本中的关键词,计算语音控制文本与存储的每个分支文本之间的相似度,其中,分支文本是存储的指令树中构成每个分支的所有节点对应的文本;若相似度大于预设的相似度阈值,则基于预置的规则,根据相似度表征的分支文本生成提示文本,该提示文本包括该分支文本表征的标准语音控制指令。
根据步骤102中识别语音控制文本中的目标控制文本和非目标控制文本的第二种可能的方式,终端中预先存储有多个分支文本,由于分支文本是存储的指令树中构成每个分支的所有节点对应的文本,因此该多个分支文本中的每个分支文本对应一个标准语音控制指令,因此,可以计算语音控制文本和该多个分支文本中的每个分支文本之间的相似度,得到多个相似度,当该多个相似度中存在大于预设的相似度阈值的相似度时,则生成提示文本,且提示文本包括该分支文本表征的标准语音控制指令。
具体地,计算语音控制文本和每个分支文本之间的相似度可以参考上述计算语音控制文本和每个语音控制模板之间的相似度,在此不做详细说明。
步骤106:为提示文本中的标准语音控制指令配置与提示文本中的其他文本不同的属性信息,以实现标准语音控制指令与该其他文本的区别显示,该属性信息包括用于表示显示字号、显示透明度、显示颜色和显示字体中的至少一个。
为了提高用户对提示文本中的标准语音控制指令的记忆,终端在生成提示文本之后,还需为提示文本中的标准语音控制指令配置与提示文本中的其他文本不同的属性信息,以实现标准语音控制指令与该其他文本的区别显示。其中,为提示文本中的标准语音控制指令配置与提示文本中的其他文本不同的属性信息,可以参考步骤103中为目标控制文本配置不同于非目标控制文本的属性信息,在此不做详细阐述。也即,此时为标准语音控制指令配置属性信息相当于步骤103中为目标控制文本配置属性信息,为提示文本中的其他文本配置属性信息相当于步骤103中为非目标控制文本配置属性信息。
例如,提示文本为“如果您想调节音量,可以说音量小点”,该提示文本中包括的标准语音控制指令为“音量小点”,为了对该标准语音控制指令“音量小点”进行突出显示,需要为该标准语音控制指令“音量小点”配置不同于其他文本“如果您想调节音量,可以说”的属性信息。
步骤107:基于该属性信息,显示提示文本,其中,标准语音控制指令与该其他文本的显示字号、显示透明度、显示颜色和显示字体中的至少一个不同。
在显示该提示文本时,对于该提示文本中的标准语音控制指令按照该标准语音控制指令的属性信息进行显示,对于该提示文本中的其他文本按照该其他文本的属性信息进行显示,也即按照标准语音控制指令的显示字号、显示透明度、显示颜色和显示字体对该标准语音控制指令进行突出显示,以便用户可以清楚了解到终端可以识别的标准语音控制指令,并形成对该标准语音控制指令的记忆。
在本发明实施例中,由于目标控制文本为与标准语音控制指令相匹配的文本,因此,当语音控制文本中存在目标控制文本时,则为目标控制文本配置不同于非目标控制文本的属性信息,以实现目标控制文本与非目标控制文本间的区别显示。由于该属性信息包括显示字号、显示透明度、显示颜色和显示字体中的至少一个,因此当按照配置属性信息显示语音控制文本时,可以实现对语音控制文本中的目标控制文本的突出显示,从而加强用户对目标控制文本的记忆,以此增加用户下次输入的语音控制文本中包括目标控制文本的概率,也即提高终端对语音控制文本的理解率,从而提升用户通过语音控制终端的体验。另外,当语音控制文本中不包括目标控制文本时,则生成提示文本,由于提示文本中包括标准语音控制指令,因此通过提示文本可以提示用户终端能够识别的标准语音控制指令,从而加强用户对标准语音控制指令的记忆,同样提升用户通过语音控制终端的体验。
参见图2,本发明实施例提供了一种语音控制文本的显示装置200,该装置200包括识别模块201、配置模块202和显示模块203:
识别模块201,用于识别语音控制文本中的目标控制文本和非目标控制文本,其中,目标控制文本为与标准语音控制指令相匹配的文本,非目标控制文本为与标准语音控制指令不匹配的文本;
配置模块202,用于若该语音控制文本中存在目标控制文本,则为目标控制文本配置不同于非目标控制文本的属性信息,以实现目标控制文本与非目标控制文本间的区别显示,该属性信息包括用于表示显示字号、显示透明度、显示颜色和显示字体中的至少一个;
显示模块203,用于基于该属性信息,显示该语音控制文本,其中,目标控制文本与非目标控制文本的显示字号、显示透明度、显示颜色和显示字体中的至少一个不同。
可选地,该识别模块201包括:
选择单元,用于从预置的语音控制模板库中选择与该语音控制文本匹配的目标语音控制模板;
第一确定单元,用于将该语音控制文本中与目标语音控制模板匹配的文本确定为目标控制文本;
第二确定单元,用于将该语音控制文本中除目标控制文本之外的文本确定为非目标控制文本。
可选地,该识别模块201包括:
第一查找单元,用于从存储的多个分支文本中查找与该语音控制文本匹配的目标分支文本,分支文本是存储的指令树中构成每个分支的所有节点对应的文本;
第三确定单元,用于将该语音控制文本中与目标分支文本匹配的文本确定为目标控制文本;
第四确定单元,用于将该语音控制文本中除目标控制文本之外的文本确定为非目标控制文本。
可选地,该配置模块202包括如下单元中的至少一个:
第一配置单元,用于若该语音控制文本中存在目标控制文本,则为目标控制文本配置显示字号大于非目标控制文本的属性信息;或
第二配置单元,用于若该语音控制文本中存在目标控制文本,则为目标控制文本配置显示透明度低于非目标控制文本的属性信息;或
第三配置单元,用于若该语音控制文本中存在目标控制文本,则为目标控制文本配置显示颜色为有彩色的属性信息,为非目标控制文本配置显示颜色为无彩色的属性信息,有彩色为具有彩调的颜色,无彩色为不具有彩调的颜色;或
第四配置单元,用于若该语音控制文本中存在目标控制文本,则为目标控制文本配置显示字体为第一字体的属性信息,为非目标控制文本配置显示字体为第二字体的属性信息。
可选地,该配置模块202包括:
第二查找单元,用于该语音控制文本中存在目标控制文本,则查找指令树中用于表征目标控制文本的节点;
第五确定单元,用于将指令树中预先为节点配置的属性信息确定为该节点表征的目标控制文本的属性信息。
在本发明实施例中,由于目标控制文本为与标准语音控制指令相匹配的文本,因此,当语音控制文本中存在目标控制文本时,则为目标控制文本配置不同于非目标控制文本的属性信息,以实现目标控制文本与非目标控制文本间的区别显示。由于该属性信息包括显示字号、显示透明度、显示颜色和显示字体中的至少一个,因此当按照配置属性信息显示语音控制文本时,可以实现对语音控制文本中的目标控制文本的突出显示,从而加强用户对目标控制文本的记忆,以此增加用户下次输入的语音控制文本中包括目标控制文本的概率,也即提高终端对语音控制文本的理解率,从而提升用户通过语音控制终端的体验。
需要说明的是:上述实施例提供的语音控制文本的显示装置在对语音控制文本进行显示时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音控制文本的显示装置与语音控制文本的显示方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
参见图3,本发明实施例提供了另一种语音控制文本的显示装置300,该装置300包括识别模块301、计算模块302、生成模块303、配置模块304和显示模块305:
识别模块301,用于识别语音控制文本中的目标控制文本和非目标控制文本,其中,目标控制文本为与标准语音控制指令相匹配的文本,非目标控制文本为与标准语音控制指令不匹配的文本;
计算模块302,用于若语音控制文本中不存在目标控制文本,则基于该语音控制文本中的关键词,计算该语音控制文本与预置的语音控制模板之间的相似度;
生成模块303,用于若相似度大于预设的相似度阈值,则基于预置的规则,根据该语音控制模板生成提示文本,该提示文本包括该语音控制模板表征的标准语音控制指令;
配置模块304,用于为该提示文本中的标准语音控制指令配置与该提示文本中的其他文本不同的属性信息,以实现标准语音控制指令与该其他文本的区别显示,该属性信息包括用于表示显示字号、显示透明度、显示颜色和显示字体中的至少一个;
显示模块305,用于基于该属性信息,显示该提示文本,其中,标准语音控制指令其他文本的显示字号、显示透明度、显示颜色和显示字体中的至少一个不同。
在本发明实施例中,当语音控制文本中不包括目标控制文本时,则根据语音控制文本和预置的语音控制模板库生成提示文本,由于提示文本中包括标准语音控制指令,因此通过提示文本可以提示用户终端能够识别的标准语音控制指令,从而加强用户对标准语音控制指令的记忆,同样提升用户通过语音控制终端的体验。
需要说明的是:上述实施例提供的语音控制文本的显示装置在对语音控制文本进行显示时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音控制文本的显示装置与语音控制文本的显示方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
参见图4,本发明实施例提供了另一种语音控制文本的显示装置400,该装置400包括识别模块401、计算模块402、生成模块403、配置模块404和显示模块405:
识别模块401,用于识别语音控制文本中的目标控制文本和非目标控制文本,其中,目标控制文本为与标准语音控制指令相匹配的文本,非目标控制文本为与标准语音控制指令不匹配的文本;
计算模块402,用于若语音控制文本中不存在目标控制文本,则基于该语音控制文本中的关键词,计算该语音控制文本与存储的每个分支文本之间的相似度,其中,分支文本是存储的指令树中构成每个分支的所有节点对应的文本;
生成模块403,用于若相似度大于预设的相似度阈值,则基于预置的规则,根据相似度表征的分支文本生成提示文本,该提示文本包括该分支文本表征的标准语音控制指令;
配置模块404,用于为该提示文本中的标准语音控制指令配置与该提示文本中的其他文本不同的属性信息,以实现标准语音控制指令与该其他文本的区别显示,该属性信息包括用于表示显示字号、显示透明度、显示颜色和显示字体中的至少一个;
显示模块405,用于基于该属性信息,显示该提示文本,其中,标准语音控制指令与该其他文本的显示字号、显示透明度、显示颜色和显示字体中的至少一个不同。
在本发明实施例中,当语音控制文本中不包括目标控制文本时,则根据语音控制文本和预先存储的多个分支文本生成提示文本,由于提示文本中包括标准语音控制指令,因此通过提示文本可以提示用户终端能够识别的标准语音控制指令,从而加强用户对标准语音控制指令的记忆,同样提升用户通过语音控制终端的体验。
需要说明的是:上述实施例提供的语音控制文本的显示装置在对语音控制文本进行显示时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音控制文本的显示装置与语音控制文本的显示方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本实施例提供了另一种语音控制文本的显示装置,该语音控制文本的显示装置可以用于执行上述各个实施例中提供的语音控制文本显示方法。参见图5,该语音控制文本的显示装置500包括:
语音控制文本的显示装置500可以包括RF(Radio Frequency,射频)电路510、包括有一个或一个以上计算机可读存储介质的存储器520、输入单元530、显示单元540、传感器550、音频电路560、WiFi(Wireless Fidelity,无线保真)模块570、包括有一个或者一个以上处理核心的处理器580、以及电源590等部件。本领域技术人员可以理解,图5中示出的语音控制文本的显示装置结构并不构成对语音控制文本的显示装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器580处理;另外,将涉及上行的数据发送给基站。通常,RF电路510包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路510还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(CodeDivision Multiple Access,码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service,短消息服务)等。
存储器520可用于存储软件程序以及模块,处理器580通过运行存储在存储器520的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据语音控制文本的显示装置500的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器520还可以包括存储器控制器,以提供处理器580和输入单元530对存储器520的访问。
输入单元530可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元530可包括触敏表面531以及其他输入设备532。触敏表面531,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面531上或在触敏表面531附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面531可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器580,并能接收处理器580发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面531。除了触敏表面531,输入单元530还可以包括其他输入设备532。具体地,其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元540可用于显示由用户输入的信息或提供给用户的信息以及语音控制文本的显示装置500的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元540可包括显示面板541,可选的,可以采用LCD(LiquidCrystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板541。进一步的,触敏表面531可覆盖显示面板541,当触敏表面531检测到在其上或附近的触摸操作后,传送给处理器580以确定触摸事件的类型,随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图5中,触敏表面531与显示面板541是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面531与显示面板541集成而实现输入和输出功能。
语音控制文本的显示装置500还可包括至少一种传感器550,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板541的亮度,接近传感器可在语音控制文本的显示装置500移动到耳边时,关闭显示面板541和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于语音控制文本的显示装置500还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路560、扬声器561,传声器562可提供用户与语音控制文本的显示装置500之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号,传输到扬声器561,由扬声器561转换为声音信号输出;另一方面,传声器562将收集的声音信号转换为电信号,由音频电路560接收后转换为音频数据,再将音频数据输出处理器580处理后,经RF电路510以发送给比如另一语音控制文本的显示装置,或者将音频数据输出至存储器520以便进一步处理。音频电路560还可能包括耳塞插孔,以提供外设耳机与语音控制文本的显示装置500的通信。
WiFi属于短距离无线传输技术,语音控制文本的显示装置500通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块570,但是可以理解的是,其并不属于语音控制文本的显示装置500的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器580是语音控制文本的显示装置500的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器520内的软件程序和/或模块,以及调用存储在存储器520内的数据,执行语音控制文本的显示装置500的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器580可包括一个或多个处理核心;优选的,处理器580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器580中。
语音控制文本的显示装置500还包括给各个部件供电的电源590(比如电池),优选的,电源可以通过电源管理系统与处理器580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源590还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,语音控制文本的显示装置500还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,语音控制文本的显示装置的显示单元是触摸屏显示器,语音控制文本的显示装置还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行。所述一个或者一个以上程序包含用于执行上述任一实施例中提供的语音控制文本的显示装置的语音控制方法。
需要说明的是,上述实施例提供的语音控制文本的显示装置可以包括前述实施例的语音控制文本的显示装置,上述实施例提供的语音控制文本的显示装置与前述实施例的语音控制文本的显示装置以及语音控制文本的显示方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种语音控制文本的显示方法,其特征在于,所述方法包括:
识别语音控制文本中的目标控制文本和非目标控制文本,其中,所述目标控制文本为与标准语音控制指令相匹配的文本,所述非目标控制文本为与所述标准语音控制指令不匹配的文本;
若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置不同于所述非目标控制文本的属性信息,以实现所述目标控制文本与所述非目标控制文本间的区别显示,所述属性信息包括用于表示显示字号、显示透明度、显示颜色和显示字体中的至少一个;
基于所述属性信息,显示所述语音控制文本,其中,所述目标控制文本与所述非目标控制文本的显示字号、显示透明度、显示颜色和显示字体中的至少一个不同。
2.根据权利要求1所述的方法,其特征在于,所述识别语音控制文本中的目标控制文本和非目标控制文本,具体为:
从预置的语音控制模板库中选择与所述语音控制文本匹配的目标语音控制模板;
将所述语音控制文本中与所述目标语音控制模板匹配的文本确定为所述目标控制文本;
将所述语音控制文本中除所述目标控制文本之外的文本确定为所述非目标控制文本。
3.根据权利要求1所述的方法,其特征在于,所述识别语音控制文本中的目标控制文本和非目标控制文本,具体为:
从存储的多个分支文本中查找与所述语音控制文本匹配的目标分支文本,所述分支文本是存储的指令树中构成每个分支的所有节点对应的文本;
将所述语音控制文本中与所述目标分支文本匹配的文本确定为所述目标控制文本;
将所述语音控制文本中除所述目标控制文本之外的文本确定为所述非目标控制文本。
4.根据权利要求1所述的方法,其特征在于,所述若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置不同于所述非目标控制文本的属性信息,具体为如下方式中的至少一种:
若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置显示字号大于所述非目标控制文本的属性信息;或
若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置显示透明度低于所述非目标控制文本的属性信息;或
若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置显示颜色为有彩色的属性信息,为所述非目标控制文本配置显示颜色为无彩色的属性信息,所述有彩色为具有彩调的颜色,所述无彩色为不具有彩调的颜色;或
若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置显示字体为第一字体的属性信息,为所述非目标控制文本配置显示字体为第二字体的属性信息。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置不同于所述非目标控制文本的属性信息,具体为:
若所述语音控制文本中存在所述目标控制文本,则查找所述指令树中用于表征所述目标控制文本的节点;
将所述指令树中预先为所述节点配置的属性信息确定为所述节点表征的所述目标控制文本的属性信息。
6.一种语音控制文本的显示方法,其特征在于,所述方法包括:
识别语音控制文本中的目标控制文本和非目标控制文本,其中,所述目标控制文本为与标准语音控制指令相匹配的文本,所述非目标控制文本为与所述标准语音控制指令不匹配的文本;
若语音控制文本中不存在目标控制文本,则基于所述语音控制文本中的关键词,计算所述语音控制文本与预置的语音控制模板之间的相似度;
若所述相似度大于预设的相似度阈值,则基于预置的规则,根据所述语音控制模板生成提示文本,所述提示文本包括所述语音控制模板表征的标准语音控制指令;
为所述提示文本中的标准语音控制指令配置与所述提示文本中的其他文本不同的属性信息,以实现所述标准语音控制指令与所述其他文本的区别显示,所述属性信息包括用于表示显示字号、显示透明度、显示颜色和显示字体中的至少一个;
基于所述属性信息,显示所述提示文本,其中,所述标准语音控制指令与所述其他文本的显示字号、显示透明度、显示颜色和显示字体中的至少一个不同。
7.一种语音控制文本的显示方法,其特征在于,所述方法包括:
识别语音控制文本中的目标控制文本和非目标控制文本,其中,所述目标控制文本为与标准语音控制指令相匹配的文本,所述非目标控制文本为与所述标准语音控制指令不匹配的文本;
若语音控制文本中不存在目标控制文本,则基于所述语音控制文本中的关键词,计算所述语音控制文本与存储的每个分支文本之间的相似度,其中,所述分支文本是存储的指令树中构成每个分支的所有节点对应的文本;
若所述相似度大于预设的相似度阈值,则基于预置的规则,根据所述相似度表征的分支文本生成提示文本,所述提示文本包括所述分支文本表征的标准语音控制指令;
为所述提示文本中的标准语音控制指令配置与所述提示文本中的其他文本不同的属性信息,以实现所述标准语音控制指令与所述其他文本的区别显示,所述属性信息包括用于表示显示字号、显示透明度、显示颜色和显示字体中的至少一个;
基于所述属性信息,显示所述提示文本,其中,所述标准语音控制指令与所述其他文本的显示字号、显示透明度、显示颜色和显示字体中的至少一个不同。
8.一种语音控制文本的显示装置,其特征在于,所述装置包括:
识别模块,用于识别语音控制文本中的目标控制文本和非目标控制文本,其中,所述目标控制文本为与标准语音控制指令相匹配的文本,所述非目标控制文本为与所述标准语音控制指令不匹配的文本;
配置模块,用于若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置不同于所述非目标控制文本的属性信息,以实现所述目标控制文本与所述非目标控制文本间的区别显示,所述属性信息包括用于表示显示字号、显示透明度、显示颜色和显示字体中的至少一个;
显示模块,用于基于所述属性信息,显示所述语音控制文本,其中,所述目标控制文本与所述非目标控制文本的显示字号、显示透明度、显示颜色和显示字体中的至少一个不同。
9.根据权利要求8所述的装置,其特征在于,所述配置模块包括如下单元中的至少一个:
第一配置单元,用于若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置显示字号大于所述非目标控制文本的属性信息;或
第二配置单元,用于若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置显示透明度低于所述非目标控制文本的属性信息;或
第三配置单元,用于若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置显示颜色为有彩色的属性信息,为所述非目标控制文本配置显示颜色为无彩色的属性信息,所述有彩色为具有彩调的颜色,所述无彩色为不具有彩调的颜色;或
第四配置单元,用于若所述语音控制文本中存在所述目标控制文本,则为所述目标控制文本配置显示字体为第一字体的属性信息,为所述非目标控制文本配置显示字体为第二字体的属性信息。
10.一种语音控制文本的显示装置,其特征在于,所述装置包括:
识别模块,用于识别语音控制文本中的目标控制文本和非目标控制文本,其中,所述目标控制文本为与标准语音控制指令相匹配的文本,所述非目标控制文本为与所述标准语音控制指令不匹配的文本;
计算模块,用于若语音控制文本中不存在目标控制文本,则基于所述语音控制文本中的关键词,计算所述语音控制文本与预置的语音控制模板之间的相似度;
生成模块,用于若所述相似度大于预设的相似度阈值,则基于预置的规则,根据所述语音控制模板生成提示文本,所述提示文本包括所述语音控制模板表征的标准语音控制指令;
配置模块,用于为所述提示文本中的标准语音控制指令配置与所述提示文本中的其他文本不同的属性信息,以实现所述标准语音控制指令与所述其他文本的区别显示,所述属性信息包括用于表示显示字号、显示透明度、显示颜色和显示字体中的至少一个;
显示模块,用于基于所述属性信息,显示所述提示文本,其中,所述标准语音控制指令与所述其他文本的显示字号、显示透明度、显示颜色和显示字体中的至少一个不同。
11.一种语音控制文本的显示装置,其特征在于,所述装置包括:
识别模块,用于识别语音控制文本中的目标控制文本和非目标控制文本,其中,所述目标控制文本为与标准语音控制指令相匹配的文本,所述非目标控制文本为与所述标准语音控制指令不匹配的文本;
计算模块,用于若语音控制文本中不存在目标控制文本,则基于所述语音控制文本中的关键词,计算所述语音控制文本与存储的每个分支文本之间的相似度,其中,所述分支文本是存储的指令树中构成每个分支的所有节点对应的文本;
生成模块,用于若所述相似度大于预设的相似度阈值,则基于预置的规则,根据所述相似度表征的分支文本生成提示文本,所述提示文本包括所述分支文本表征的标准语音控制指令;
配置模块,用于为所述提示文本中的标准语音控制指令配置与所述提示文本中的其他文本不同的属性信息,以实现所述标准语音控制指令与所述其他文本的区别显示,所述属性信息包括用于表示显示字号、显示透明度、显示颜色和显示字体中的至少一个;
显示模块,用于基于所述属性信息,显示所述提示文本,其中,所述标准语音控制指令与所述其他文本的显示字号、显示透明度、显示颜色和显示字体中的至少一个不同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710282869.3A CN107155121B (zh) | 2017-04-26 | 2017-04-26 | 语音控制文本的显示方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710282869.3A CN107155121B (zh) | 2017-04-26 | 2017-04-26 | 语音控制文本的显示方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107155121A true CN107155121A (zh) | 2017-09-12 |
CN107155121B CN107155121B (zh) | 2020-01-10 |
Family
ID=59792711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710282869.3A Active CN107155121B (zh) | 2017-04-26 | 2017-04-26 | 语音控制文本的显示方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107155121B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018196231A1 (zh) * | 2017-04-26 | 2018-11-01 | 海信集团有限公司 | 智能终端显示用户操控指令的方法和智能终端 |
CN109256125A (zh) * | 2018-09-29 | 2019-01-22 | 百度在线网络技术(北京)有限公司 | 语音的离线识别方法、装置与存储介质 |
TWI664536B (zh) * | 2017-11-16 | 2019-07-01 | 棣南股份有限公司 | 文書編輯軟體之語音控制方法及語音控制系統 |
WO2019233190A1 (zh) * | 2018-06-04 | 2019-12-12 | 深圳Tcl数字技术有限公司 | 基于显示终端的文本转语音方法、显示终端及存储介质 |
CN111176778A (zh) * | 2019-12-31 | 2020-05-19 | 联想(北京)有限公司 | 一种信息显示方法、装置、电子设备和存储介质 |
CN111415656A (zh) * | 2019-01-04 | 2020-07-14 | 上海擎感智能科技有限公司 | 语音语义识别方法、装置及车辆 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102866824A (zh) * | 2011-06-07 | 2013-01-09 | 三星电子株式会社 | 执行链接的显示设备和方法及其识别语音的方法 |
CN105027574A (zh) * | 2013-01-07 | 2015-11-04 | 三星电子株式会社 | 在语音识别系统中控制显示装置的显示装置和方法 |
CN105074815A (zh) * | 2013-01-24 | 2015-11-18 | 微软技术许可有限责任公司 | 针对语音识别系统的视觉反馈 |
CN105488032A (zh) * | 2015-12-31 | 2016-04-13 | 杭州智蚁科技有限公司 | 一种语音识别输入的控制方法及系统 |
US20160124970A1 (en) * | 2014-10-30 | 2016-05-05 | Fluenty Korea Inc. | Method and system for providing adaptive keyboard interface, and method for inputting reply using adaptive keyboard based on content of conversation |
-
2017
- 2017-04-26 CN CN201710282869.3A patent/CN107155121B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102866824A (zh) * | 2011-06-07 | 2013-01-09 | 三星电子株式会社 | 执行链接的显示设备和方法及其识别语音的方法 |
CN105027574A (zh) * | 2013-01-07 | 2015-11-04 | 三星电子株式会社 | 在语音识别系统中控制显示装置的显示装置和方法 |
CN105074815A (zh) * | 2013-01-24 | 2015-11-18 | 微软技术许可有限责任公司 | 针对语音识别系统的视觉反馈 |
US20160124970A1 (en) * | 2014-10-30 | 2016-05-05 | Fluenty Korea Inc. | Method and system for providing adaptive keyboard interface, and method for inputting reply using adaptive keyboard based on content of conversation |
CN105488032A (zh) * | 2015-12-31 | 2016-04-13 | 杭州智蚁科技有限公司 | 一种语音识别输入的控制方法及系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018196231A1 (zh) * | 2017-04-26 | 2018-11-01 | 海信集团有限公司 | 智能终端显示用户操控指令的方法和智能终端 |
TWI664536B (zh) * | 2017-11-16 | 2019-07-01 | 棣南股份有限公司 | 文書編輯軟體之語音控制方法及語音控制系統 |
WO2019233190A1 (zh) * | 2018-06-04 | 2019-12-12 | 深圳Tcl数字技术有限公司 | 基于显示终端的文本转语音方法、显示终端及存储介质 |
CN109256125A (zh) * | 2018-09-29 | 2019-01-22 | 百度在线网络技术(北京)有限公司 | 语音的离线识别方法、装置与存储介质 |
CN109256125B (zh) * | 2018-09-29 | 2022-10-14 | 阿波罗智联(北京)科技有限公司 | 语音的离线识别方法、装置与存储介质 |
CN111415656A (zh) * | 2019-01-04 | 2020-07-14 | 上海擎感智能科技有限公司 | 语音语义识别方法、装置及车辆 |
CN111415656B (zh) * | 2019-01-04 | 2024-04-30 | 上海擎感智能科技有限公司 | 语音语义识别方法、装置及车辆 |
CN111176778A (zh) * | 2019-12-31 | 2020-05-19 | 联想(北京)有限公司 | 一种信息显示方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107155121B (zh) | 2020-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145303B (zh) | 命名实体识别方法、装置、介质以及设备 | |
CN107155121A (zh) | 语音控制文本的显示方法及装置 | |
CN104239535B (zh) | 一种为文字配图的方法、服务器、终端及系统 | |
CN107943860A (zh) | 模型的训练方法、文本意图的识别方法及装置 | |
CN111931501B (zh) | 一种基于人工智能的文本挖掘方法、相关装置及设备 | |
CN106227774B (zh) | 信息搜索方法及装置 | |
US6864809B2 (en) | Korean language predictive mechanism for text entry by a user | |
CN111177371B (zh) | 一种分类方法和相关装置 | |
CN107122160A (zh) | 用于语音输入控制指令的显示方法、装置和终端 | |
CN109033156B (zh) | 一种信息处理方法、装置及终端 | |
CN108090174A (zh) | 一种基于系统功能语法的机器人应答方法及装置 | |
CN106910503A (zh) | 用于智能终端显示用户操控指令的方法、装置和智能终端 | |
CN106774970A (zh) | 对输入法的候选项进行排序的方法和装置 | |
CN107608532A (zh) | 一种联想输入方法、装置及电子设备 | |
WO2014190732A1 (en) | Method and apparatus for building a language model | |
WO2021147421A1 (zh) | 用于人机交互的自动问答方法、装置和智能设备 | |
CN111597804B (zh) | 一种实体识别模型训练的方法以及相关装置 | |
CN107305438A (zh) | 候选项的排序方法和装置、用于候选项排序的装置 | |
CN108038243A (zh) | 音乐推荐方法、装置、存储介质及电子设备 | |
CN110209778A (zh) | 一种对话生成的方法以及相关装置 | |
CN110276010A (zh) | 一种权重模型训练方法和相关装置 | |
CN114564666A (zh) | 百科信息展示方法、装置、设备和介质 | |
CN109144285A (zh) | 一种输入方法和装置 | |
CN108228720A (zh) | 识别目标文字内容和原图相关性的方法、系统、装置、终端、及存储介质 | |
CN111553163A (zh) | 文本相关度的确定方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |