CN103140889A - 语音转换装置、便携电话终端、语音转换方法和记录介质 - Google Patents

语音转换装置、便携电话终端、语音转换方法和记录介质 Download PDF

Info

Publication number
CN103140889A
CN103140889A CN2011800472986A CN201180047298A CN103140889A CN 103140889 A CN103140889 A CN 103140889A CN 2011800472986 A CN2011800472986 A CN 2011800472986A CN 201180047298 A CN201180047298 A CN 201180047298A CN 103140889 A CN103140889 A CN 103140889A
Authority
CN
China
Prior art keywords
character string
word
phrase
voice
correct
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800472986A
Other languages
English (en)
Other versions
CN103140889B (zh
Inventor
藤林俊彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Casio Mobile Communications Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Casio Mobile Communications Ltd filed Critical NEC Casio Mobile Communications Ltd
Publication of CN103140889A publication Critical patent/CN103140889A/zh
Application granted granted Critical
Publication of CN103140889B publication Critical patent/CN103140889B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/70Details of telephonic subscriber devices methods for entering alphabetical characters, e.g. multi-tap or dictionary disambiguation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephone Function (AREA)
  • Document Processing Apparatus (AREA)

Abstract

提供了一种减轻用户重复执行相似校正处理的操作负担的便携电话终端。语音转换装置包括:语音识别装置,在接收语音时将语音转换为文本;显示装置,显示文本;校正装置,接收使得校正作为显示装置上显示的文本的一部分的短语的校正指令,并根据校正指令校正所述短语;存储装置,存储对所述短语的校正的描述,校正装置已对所述短语执行校正;以及控制装置,当语音识别装置将语音转换为文本,并且在存储装置中存储了对文本中的短语的校正的描述时,产生反映了对校正的描述的选择候选,并作为语音识别的识别结果候选在显示装置上显示所述选择候选。

Description

语音转换装置、便携电话终端、语音转换方法和记录介质
技术领域
本发明涉及一种语音转换装置、便携电话终端、语音转换方法和记录介质。
背景技术
当诸如便携电话终端之类的设备配置的语音识别引擎执行语音识别处理时,用户说出的词语或短语并不总是与它的语音识别结果相匹配。
尽管用户说出的词语或短语与其语音识别结果之间的不一致性依赖于语音识别引擎本身的识别率,所述不一致性也依赖于诸如用户的讲话习惯、他或她的口音以及麦克风的特性之类的其他因素。
因此,用户需要执行优化处理(校正处理),所述优化处理(校正处理)将不正确的语音识别结果校正为正确的词语或短语。
专利文献1描述了一种语音识别单元,所述语音识别单元允许用户使用他或她的正确语音对不正确的语音识别结果进行校正,并且所述语音识别单元存储校正的结果,具体地存储校正前的语音识别结果和校正后的语音识别结果。
在专利文献1中描述的语音识别单元中,当已经利用用户的正确语音对语音识别结果进行校正、并且如果所述单元进一步地接受了他或她的正确语音时,所述单元输出此时获得的正确结果,即不正确的语音识别结果。
相关文献
专利文献
专利文献1:JP2007-93789A
发明内容
本发明要解决的问题
在专利文献1中描述的语音识别单元中,只是在已经利用正确的语音重复地校正的语音识别结果中、而不是在新的语音识别结果中,对过去进行的校正内容加以反映。
因此,在专利文献1中描述的语音识别单元中,可能在每一个新的语音识别结果中发生识别错误。因此,如果在新的语音识别结果中发生用户过去已经校正的识别错误,因为他或她需要重复他或她过去进行的相同校正处理(优化处理),他或她发现这是麻烦的。
本发明的目的是为了提供一种可以解决上述问题的语音转换装置、便携电话终端、语音转换方法和记录介质。
解决问题的手段
根据本发明的语音转换装置包括:语音识别装置,所述语音识别装置接受语音,并且将所述语音转换为字符串;显示装置,所述显示装置显示所述字符串;校正装置,所述校正装置接受校正命令,所述校正命令使得对作为在所述显示装置上显示的字符串的一部分的词语或短语进行校正,并且所述校正装置对与所述校正命令相对应的所述词语或短语进行校正;存储装置,所述存储装置存储已由所述校正装置校正的词语或短语;以及控制装置,当所述语音识别装置将所述语音转换为所述字符串时,如果已经将所述字符串的已校正的词语或短语存储在所述存储装置中,所述控制装置产生与所述已校正的词语或短语相对应的选择候选,并且将所述选择候选作为所述语音的识别结果候选显示在所述显示装置上。
根据本发明的语音转换装置是一种能够与语音识别单元通信的语音转换装置,所述语音识别单元接收语音数据、将所述语音数据转换为字符串、并且将所述字符串传输给所述语音数据的发送方,所述语音转换装置包括:输出装置,所述输出装置将输入的语音转换为语音数据;通信装置,所述通信装置将所述语音数据传输给所述语音识别单元、然后从所述语音识别单元接收作为所述语音数据的转换结果的字符串;显示装置,所述显示装置显示所述字符串;校正装置,所述校正装置接受校正命令,所述校正命令使得对作为在所述显示装置上显示的字符串的一部分的词语或短语进行校正,并且所述校正装置对所述字符串的与所述校正命令相对应的词语或短语进行校正;存储装置,所述存储装置存储由所述校正装置校正的词语或短语;以及控制装置,当所述通信装置从所述语音识别单元接收所述字符串时,如果已经将所述字符串的已校正的词语或短语存储在所述存储装置中,所述控制装置产生与所述已校正的词语或短语相对应的选择候选,并且将所述选择候选作为所述语音的识别结果候选显示在所述显示装置上。
根据本发明的语音转换方法是一种用于语音转换装置的语音转换方法,所述语音转换方法包括:接受语音,并且将所述语音转换为字符串;在显示装置上显示所述字符串;接受使得对作为在所述显示装置上显示的字符串的一部分的词语或短语进行校正的校正命令,并且对与所述校正命令相对应的所述词语或短语进行校正;将已校正的词语或短语存储在存储装置中;以及当将所述语音转换为所述字符串时,如果已经将所述字符串的已校正的词语或短语存储在所述存储装置中,则产生与所述已校正的词语或短语相对应的选择候选,并且将所述选择候选作为所述语音的识别结果候选显示在所述显示装置上。
根据本发明的语音转换方法是一种用于语音转换装置的语音转换方法,所述语音转换装置能够与语音识别单元通信,所述语音识别单元接收语音数据、将所述语音数据转换为字符串、并且将所述字符串传输给所述语音数据的发送方,所述语音转换方法包括:将输入的语音转换为语音数据;将所述语音数据传输给所述语音识别单元、然后从所述语音识别单元接收作为所述语音数据的转换结果的字符串;在显示装置上显示所述字符串;接受校正命令,所述校正命令对作为在所述显示装置上显示的字符串的一部分的词语或短语进行校正,并且与所述校正命令相对应地对所述字符串的词语或短语进行校正;将所述已校正的词语或短语存储在存储装置中;以及产生与所述字符串的已校正的词语或短语相对应的选择候选,并且当从所述语音识别单元接收字符串时,如果已经将已校正的词语或短语存储在所述存储装置中,则将所述选择候选作为所述语音的识别结果候选显示在所述显示装置上。
根据本发明的语音转换方法是一种用于语音转换装置的语音转换方法,所述语音转换装置能够与语音识别单元通信,所述语音识别单元接收语音数据、将所述语音数据转换为字符串、并且将所述字符串传输给所述语音数据的发送方,所述语音转换方法包括:将输入的语音转换为语音数据;将所述语音数据传输给所述语音识别单元、然后从所述语音识别单元接收作为所述语音数据的转换结果的字符串;在显示装置上显示所述字符串;接受使得对作为在所述显示装置上显示的字符串的一部分的词语或短语进行校正的校正命令,并且对所述字符串的与所述校正命令相对应的所述词语或短语进行校正;将已校正的词语或短语存储在存储装置中;以及从所述语音识别单元接收所述字符串时,如果已经将所述字符串的已校正的词语或短语存储在所述存储装置中,则产生与所述已校正的词语或短语相对应的选择候选,并且将所述选择候选作为所述语音的识别结果候选显示在所述显示装置上。
根据本发明的记录介质是一种计算机可读记录介质,所述计算机可读记录介质存储程序,所述程序使得计算机执行以下过程,包括:语音识别过程,所述语音识别过程接受语音,并且将所述语音转换为字符串;显示过程,所述显示过程在显示装置上显示所述字符串;校正过程,所述校正过程接受使得对作为在所述显示装置上显示的字符串的一部分的词语或短语进行校正的校正命令,并且对与所述校正命令相对应的所述词语或短语进行校正;存储过程,所述存储过程将已校正的词语或短语存储在存储装置中;以及控制过程,当将所述语音转换为所述字符串时,如果已经将所述字符串的所述已校正的词语或短语存储在所述存储装置中,所述控制过程产生与所述已校正的词语或短语相对应的选择候选,并且将所述选择候选作为所述语音的识别结果候选显示在所述显示装置上。
根据本发明的记录介质是一种计算机可读记录介质,所述计算机可读记录介质存储程序,所述程序使得能够与语音识别单元通信的计算机执行以下过程,所述语音识别单元接收语音数据、将所述语音数据转换为字符串、并且将所述字符串传输给所述语音数据的发送方,所述过程包括:输出过程,所述输出过程将输入的语音转换为语音数据;通信过程,所述通信过程将所述语音数据传输给所述语音识别单元、然后从所述语音识别单元接收作为所述语音数据的转换结果的字符串;显示过程,所述显示过程在显示装置上显示所述字符串;校正过程,所述校正过程接受使得对作为在所述显示装置上显示的字符串的一部分的词语或短语进行校正的校正命令,并且对所述字符串的与所述校正命令相对应的所述词语或短语进行校正;存储过程,所述存储过程将已校正的词语或短语存储在存储装置中;以及控制过程,当从所述语音识别单元接收所述字符串时,如果已经将所述字符串的所述已校正的词语或短语存储在所述存储装置中,所述控制过程产生与所述已校正的词语或短语相对应的选择候选,并且将所述选择候选作为所述语音的识别结果候选显示在所述显示装置上。
本发明效果
根据本发明,用户可以不用重复相同的校正处理(优化处理)。
附图说明
[图1]是示出了根据本发明实施例的便携电话终端1的方框图。
[图2]是示出了差异词典的示意图。
[图3]是描述了便携电话终端1的操作的流程图。
[图4]是描述了便携电话终端1的操作的示意图。
[图5]是描述了便携电话终端1的操作的示意图。
具体实施方式
接下来将参考附图描述本发明的实施例。
图1是示出了根据本发明实施例的便携电话终端1的方框图。
在图1中,便携电话终端1具有处理电子邮件等的字符数据的功能。便携电话终端1包括根据本发明实施例的语音转换装置10。
语音转换装置10包括:转换部11、显示部12、校正部13、存储单元14、控制部15、通信部16和天线17。转换部11包括麦克风11a和语音识别部11b。校正部13包括操作部13a和字符编辑部13b。
将转换部11通常可以称作语音识别装置。
无论何时转换部11接受语音,转换部11执行针对所述语音的语音识别处理,以便将所述语音转换为字符串。
麦克风11a通常可以称作输出装置。无论何时麦克风11a输入用户的语音,麦克风11a将用户的语音转换为语音数据并且输出所述语音数据。将所述语音数据通过控制部15提供给语音识别部11b。
无论何时语音识别部11b接受语音数据,语音识别部11b针对所述语音数据执行语音识别处理,以便将语音数据转换为字符串并且输出所述字符串。根据这一实施例,语音识别部11b输出假名字符串(片假名字符串或平假名字符串)(片假名字符和平假名字符是在日语书写使用的日语字符和日语汉字字符)。
显示部12通常可以称作显示装置。
显示部12显示从语音识别部11b输出的字符串。此外,显示部12显示在字符编辑部13b中发生的字符编辑状态。
校正部13通常可以称作校正装置。
校正部13接受校正命令,所述校正命令使得对作为从语音识别部11b输出的字符串的一部分的词语或短语(由一个或多个字符组成)进行校正。根据这一实施例,校正命令规定了要进行校正的词语或短语并且对已校正的词语或短语加以表示。
当校正部13接受所述校正命令时,校正部13将字符串的由所述校正命令指定的词语或短语校正为由所述校正命令指定为已校正的词语或短语的词语或短语。下文中,将由校正命令指定的词语或短语称作“校正前的词语或短语”,而将由校正命令指定为是已校正词语或短语的词语或短语称作“校正后的词语或短语”。
操作部13a是操作按钮。可以在显示部12上显示所述操作按钮。当用户操作操作部13a时,操作部13a从用户接受各种输入(例如,校正命令)。当操作部13a接受所述校正命令时,操作部13a通过控制部15将所述校正命令提供给字符编辑部13b。
当字符编辑部13b接受校正命令时,字符编辑部13b与所述校正命令相对应地对从语音识别部11b输出的字符串进行编辑。根据这一实施例,当字符编辑部13b接受所述校正命令时,字符编辑部13b用校正后的词语或短语替换所述字符串的校正前的词语或短语。
存储单元14通常可以称作存储装置。
存储单元14存储词典(词典数据),字符编辑部13b需要所述词典进行字符编辑处理,并且语音识别部11b需要所述词典进行语音识别处理。
此外,存储单元14存储字符编辑部13b已经编辑的词语或短语(校正前的词语和短语以及校正后的词语和短语的集合)。根据该实施例,存储单元14存储差异词典(差异词典数据),所述差异词典表示校正的内容。差异词典包括已经彼此相关的校正前的词语和短语以及校正后的词语和短语。
控制部15通常可以称作控制装置。
控制部15控制便携电话终端1的每一个部分。
当转换部11将语音转换为字符串时,如果存储单元14已经存储了字符串的已校正词语或短语,控制部15产生与校正内容相对应的选择候选,并且将所述选择候选在显示部12上显示为语音的识别结果候选。
根据这一实施例,当转换部11将语音转换为字符串时,如果存储单元14已经存储了字符串的词语或短语作为校正前的词语或短语,控制部15产生替换的字符串作为所述选择候选,其中将字符串的校正前的词语或短语替换为与所述校正前的词语或短语相关的校正后的词语或短语。
控制部15在显示部12上显示校正后的词语或短语的显示格式不同于替换后字符串的除校正后词语或短语字符之外的字符的显示格式。例如,控制部15按照与除了校正后的字符之外的字符不同的颜色、大小或自体显示替换字符串的校正后的字符。
通信部16通常可以称作通信装置。
当除了便携电话终端1的语音识别部11b之外的外部语音识别单元2执行语音识别处理时,通信部16通过天线17将从麦克风11a输出的语音数据传输给语音识别单元2,然后通过天线17从语音识别单元2接收作为语音数据的转换结果的字符串。
无论何时语音识别单元2接受语音数据,语音识别单元2将语音数据转换为字符串,并且向语音数据的发送方传输转换结果(字符串)。
图2是示出了存储单元14已经存储的差异词典(数据库)的示例的示意图。
在图2中,差异词典14A具有用于识别差异的结果的多个存储区域14A1。无论何时用户使用校正命令对从语音识别部11b输出的假名字符串的词语或短语进行校正,控制部15登记识别结果的差异信息(校正内容),所述识别结果的差异信息表示语音识别部11b的语音识别结果和用户对于用于差异的识别结果的存储区域14A1的识别之间的差异。
用于差异的识别结果的存储区域14A1包括用于假名字符的识别结果的存储区域14A2、用于假名字符的校正结果的存储区域14A3以及用于差异发生计数的存储区域14A4。
用于假名字符的识别结果的存储区域142A2对以下假名字符进行存储,所述假名字符是由从语音识别部11b输出的假名字符串(下文中将这些假名字符串称作假名字符的识别结果)的校正命令指定为要校正的词语或短语(校正前的词语或短语)。
用于假名字符的校正结果的存储区域14A3存储由校正命令指定为校正后的词语或短语的假名字符(下文中将这些假名字符称作“假名字符的校正结果”)。
用于差异发生计数的存储区域14A4对假名字符的识别结果的存储区域14A2中存储的“假名字符的识别结果”被校正为假名字符的校正结果的存储区域14A3中存储的“假名字符的校正结果”的次数进行存储(下文中将该次数称为“差异发生计数”)。
如图2所示,根据该实施例,存储单元14存储校正前的词语或短语以及校正后的词语或短语的多个集合以及已经执行的针对每一个集合的校正的次数(下文中,将已经执行的针对每一个集合的校正次数称作“执行计数”)。
当转换部11将语音转换为字符串时,如果已经将所述字符串的词语或短语的每一个作为校正前的词语或短语存储在存储单元14中,控制部15产生替换字符串作为所述选择候选,在替换字符串中,已经将作为校正前的词语或短语的字符串的每一个词语或短语替换为与每一个校正前的词语或短语的相关联的校正后的词语或短语。
控制部15基于用于产生选择候选的集合的执行计数以及用于产生选择候选的每一个校正前的词语或短语的字符的个数,决定在显示部12上显示的选择候选的显示顺序。
控制部15例如与执行计数以及每一个校正前的词语或短语的字符的个数成正比地向选择候选赋值。控制部15在显示部12上按照赋值的高低顺序显示选择候选。
可以通过计算机实现语音转换装置10。在这种情况下,当计算机从诸如CD-ROM(紧凑盘只读存储器)之类的记录介质读取程序并且执行所述程序时,计算机可以用作转换部11、显示部12、校正部13、存储单元14和控制部15。记录介质不局限于CD-ROM,而可以是任意类型。
接下来,将简要描述该实施例的操作。
根据该实施例,当用户使用字符编辑部13b对由语音识别部11b识别的语音识别结果进行校正时,将对语音识别结果和由字符编辑部13b校正的字符串之间的假名字符的差异加以表示的差异信息(差异信息的识别结果)存储在便携电话终端1的存储单元14中。
便携电话终端1基于作为由语音识别部11b执行的语音识别处理的结果的差异信息,产生选择候选,并且显示所述选择候选作为语音识别结果候选。
此外,便携电话终端1产生替换字符串作为所述选择候选,其中将从语音识别部11b输出的字符串的校正前的词语或短语(假名字符的识别结果)替换为校正后的词语或短语(假名字符的校正结果),并且按照与除了替换字符串的校正后的字符之外的字符不同的颜色、大小或字体来显示校正后的字符。
接下来,将详细描述该实施例的操作。
图3是描述了与用户的操作相对应的便携电话终端1的操作的流程图。
当用户向便携电话终端1输入字符时,他或她向麦克风11a讲出与所述字符相对应的词语或短语(步骤301)。
麦克风11a将输入语音转换为语音数据。随后,语音识别部11b或外部语音识别单元2执行针对所述语音数据的语音识别处理。随后,控制部15获取假名信息(字符串)作为语音识别结果(步骤302)。
随后,控制部15产生识别结果候选作为假名信息(字符串)的语音识别结果。字符编辑部13b执行针对识别结果候选的日语汉字字符转换处理。控制部15在显示部12上显示已经转换为日语汉字字符的识别结果候选。
当控制部15产生识别结果候选时,控制部15利用在差异词典14A中存储的差异信息来对照此时获取的假名信息的语音识别结果(步骤303),并且搜索与此时获取的假名字符的识别结果部分匹配的差异信息的假名字符的识别结果(步骤304)。
如果差异词典14A已经存储了如图4所示的差异信息,如果用户讲出“Henchou”,并且语音识别部11b的语音识别引擎或者语音识别单元2的语音识别引擎已经获取的假名信息的语音识别结果是“Henshu”,当控制部15将此时获取的假名字符的语音识别结果与在差异词典14A中存储的假名字符的识别结果进行对照时,识别结果“shuu”和“shu”部分地匹配。控制部15产生假名字符的识别结果候选(替换字符串),其中将与此时获取的假名字符的语音识别结果的假名字符的识别结果匹配的假名字符替换为与假名字符的识别结果相关的假名字符的校正结果(步骤305)。
如果控制部15已经找到了假名字符的多个部分匹配,控制部15针对用于产生假名字符的识别结果候选的每一个差异信息的识别结果,设置识别结果的假名字符串长度a和差异发生计数b,并且执行重要性程度公式n=A*a+B*b以便获取重要性程度,其中n是重要性程度,A是假名字符的识别结果的系数,以及B是差异发生计数的系数,这两者都已经存储在控制部15中。
根据该实施例,基于识别结果与语音之间的依赖于识别结果的假名字符串的长度的相似性和差异发生计数两者,来计算重要性程度。
在图4所示的示例中,如果使用识别结果差异1,其中将“Henshuu”的“shuu”用“Chou”代替的“Henchou”变成假名字符的识别结果候选。
将假名字符的识别结果系数A=5和差异发生计数的系数B=2代入到重要性程度公式n=A*a+B*b中,识别结果的假名字符串长度a变成“3”,并且差异发生计数b变成“1”,结果是n=A*a+B*b=5*3+2*1=17。
同样地,在识别结果差异2中,其中将“Henshuu”的“shu”用“Su”替换的“Hensuu”变成假名字符的识别结果候选。
这里,因为识别结果的假名字符串长度a变成“2”,并且差异发生计数b变成“1”,重要性程度n变成n=A*a+B*b=5*2+2*2=14。
因此,控制部15在显示部12上按照顺序显示基于识别结果差异1产生的假名字符“的识别结果候选Henchou”以及基于识别结果差异2产生的假名字符的识别结果候选“Hensuu”。
字符编辑部13b将假名字符的识别结果候选与在日语词典中登记的字符串进行对照。只有假名字符的识别结果候选与在日语词典中登记的字符串匹配,将假名字符的识别结果候选作为识别结果候选显示在显示部12上。如果假名字符的识别结果候选与在日语词典中登记的任意字符串都不匹配,字符编辑部13b确定假名字符的识别结果候选不是正确的日语词语,从而控制部15不会将假名字符的识别结果候选识别为识别结果候选。
连同此时获取的假名信息的语音识别结果一起,将假名字符的识别结果候选显示为识别结果候选(步骤306)。将此时获取的假名字符的语音识别结果显示在顶端、接着是按照重要性程度的顺序的识别结果候选。
使用与未替换部分不同的字符颜色、字符大小或字体将替换部分相对于未替换部分加亮突出,以允许用户识别出替换部分。
此外,控制部15在显示部12上显示校正部13已经执行的从假名字符的识别结果候选到日语汉字字符的假名-日语汉字字符转换的结果作为识别结果候选。
如果控制部15还没有发现部分匹配,控制部15将其中将假名信息的语音识别结果转换为日语汉字字符的字符串作为识别结果候选显示在显示部12上。
用户从显示的识别结果候选中选择与他或她讲出的词语或短语相对应的字符串(步骤307)。
如果用户选择此时获取的语音识别结果,控制部15确定用户讲出的词语或短语与语音识别结果匹配,并且不改变差异词典(步骤308)。相反,如果用户选择与此时获取的语音识别结果不同的识别结果候选、或者使用字符编辑处理对语音识别结果进行校正(步骤309),控制部15确定在用户讲出的词语或短语和语音识别结果之间存在差异,获取所述差异,并且将所述差异登记在差异词典中(步骤310)。
例如,尽管用户讲出“Hensou”,如果获取“henshuu”作为语音识别结果,他或她将使用字符编辑处理把“shu”校正为“so”。
此时,将执行语音识别的日期和时间、将“Henshuu”作为假名字符的识别结果、将“Hensou”作为假名字符的校正结果以及将进行相同校正的次数作为差异发生计数存储在差异词典中作为差异信息。
此时,在差异词典中登记的差异信息不但可以是词语和短语,而且可以是假名字符的识别结果“shu”(其仅为被校正的部分)和假名字符的校正结果“so”的组合(集合)、以及假名字符的识别结果“shuu”(其中添加了校正部分之前和之后的字符)和假名字符的校正结果“sou”的组合(集合)。
在下一次执行语音识别处理时反映更新的差异词典。
根据该实施例,当转换部11将语音转换为字符串时,如果已经将字符串的已校正的词语或短语存储在存储单元14中,控制部15产生与已校正的词语或短语相对应的选择候选,并且将所述选择候选作为字符串的识别结果候选显示在显示部12上。
因此,用户可以不用重复所述校正处理(优化处理)。
此外,根据该实施例,当控制部15将语音转换为字符串时,如果已经将所述字符串中的词语或短语作为校正前的词语或短语存储在存储单元14中,控制部15产生替换字符串作为所述选择候选,其中将字符串的校正前的词语或短语替换为与校正前的词语或短语相关的校正后的词语或短语。在这种情况下,可能将再现过去进行的校正。
此外,根据该实施例,控制部15按照与除了校正后的词语或短语之外的字符不同的显示格式在显示部12上显示校正后的词语或短语。例如,控制部15按照与除了校正后字符之外的字符不同的颜色、大小或字体来显示替换字符串的校正后的字符。在这种情况下,将替换部分相对于未替换部分加亮突出以便允许用户容易地识别出替换部分。结果,用户可以容易地识别由于用户的讲话习惯和麦克风的特性而发生的错误。
如上所述,根据该实施例,可以将不同的信息反映为语音识别结果中对用户讲话习惯和麦克风的特性加以表示的信息,并且向用户展示所反映的结果,而不必依赖于语音识别引擎。结果,可以用户友好地显示语音识别结果,并且他或她可以知晓他或她的语音的特性。
前述实施例可以修改如下。
除了使用字符串长度和发生计数作为确定重要性程度的技术的公式n=A*a+B*b之外,可以使用另一个公式,所述另一个公式通过将假名字符的识别结果与假名字符的校正结果进行比较,使用诸如数据更新日期之类的时间信息或诸如辅音(“ma”、“mu”等)和元音(“ka”、“ha”等)相似性的数字信息之类的参数。
替代地,除了执行语音识别之外,可以由用户自己将数据登记到差异词典中。
已经参考实施例描述了本发明。然而,本领域普通技术人员应该理解的是在不脱离本发明的范围的情况下,可以按照各种方式对本发明的结构和细节进行修改。
本申请要求基于2010年9月29日递交的日本专利申请JP2010-219053的优先权,将其全部内容一并合并在此作为参考。
参考数字的描述
1 便携电话终端
10 语音转换装置
11 转换部
11a 麦克风
11b 语音识别部
12 显示部
13 校正部
13a 操作部
13b 字符编辑部
14 存储单元
15 控制部
16 通信部
17 天线
2 语音识别单元

Claims (10)

1.一种语音转换装置,包括:
语音识别装置,所述语音识别装置接受语音,并且将所述语音转换为字符串;
显示装置,所述显示装置显示所述字符串;
校正装置,所述校正装置接受校正命令,所述校正命令使得对作为在所述显示装置上显示的字符串的一部分的词语或短语进行校正,并且所述校正装置对与所述校正命令相对应的所述词语或短语进行校正;
存储装置,所述存储装置存储已由所述校正装置校正的词语或短语;以及
控制装置,当所述语音识别装置将所述语音转换为所述字符串时,如果已经将所述字符串的已校正的词语或短语存储在所述存储装置中,所述控制装置产生与所述已校正的词语或短语相对应的选择候选,并且将所述选择候选作为所述语音的识别结果候选显示在所述显示装置上。
2.根据权利要求1所述的语音转换装置,
其中所述存储装置存储尚未由所述校正装置校正的校正前的词语或短语以及已由所述校正装置校正的校正后的词语或短语;以及
其中,当所述语音识别装置将所述语音转换为所述字符串时,如果已经将所述字符串的指定的词语或短语作为所述校正前的词语或短语存储在所述存储装置中,所述控制装置产生替换字符串作为所述选择候选,在所述替换字符串中将所述字符串的指定作为所述校正前的词语或短语的所述词语或短语替换为所述校正后的词语或短语。
3.根据权利要求2所述的语音转换装置,
其中所述控制装置在所述显示装置上显示所述校正后的词语或短语,针对所述校正后的词语或短语的显示格式与针对除所述校正后的词语或短语之外的字符的显示格式不同。
4.一种语音转换装置,所述语音转换装置能够与语音识别单元通信,所述语音识别单元接收语音数据、将所述语音数据转换为字符串、并且将所述字符串传输给所述语音数据的发送方,所述语音转换装置包括:
输出装置,所述输出装置将输入的语音转换为语音数据;
通信装置,所述通信装置将所述语音数据传输给所述语音识别单元、然后从所述语音识别单元接收作为所述语音数据的转换结果的字符串;
显示装置,所述显示装置显示所述字符串;
校正装置,所述校正装置接受校正命令,所述校正命令使得对作为在所述显示装置上显示的字符串的一部分的词语或短语进行校正,并且所述校正装置对所述字符串的与所述校正命令相对应的词语或短语进行校正;
存储装置,所述存储装置存储由所述校正装置校正的词语或短语;以及
控制装置,当所述通信装置从所述语音识别单元接收所述字符串时,如果已经将所述字符串的已校正的词语或短语存储在所述存储装置中,所述控制装置产生与所述已校正的词语或短语相对应的选择候选,并且将所述选择候选作为所述语音的识别结果候选显示在所述显示装置上。
5.根据权利要求4所述的语音转换装置,
其中所述存储装置存储尚未由所述校正装置校正的校正前的词语或短语以及已由所述校正装置校正的校正后的词语或短语;以及
其中,当所述通信装置从所述语音识别单元接收所述字符串时,如果已经将所述字符串的指定的词语或短语作为所述校正后的词语或短语存储在所述存储装置中,所述控制装置产生替换字符串作为所述选择候选,在所述替换字符串中将所述字符串的指定作为所述校正前的词语或短语的所述词语或短语替换为所述校正后的词语或短语。
6.一种便携电话终端,所述便携电话终端具有根据权利要求1至5中任一项所述的语音转换装置。
7.一种用于语音转换装置的语音转换方法,所述语音转换方法包括:
接受语音,并且将所述语音转换为字符串;
在显示装置上显示所述字符串;
接受使得对作为在所述显示装置上显示的字符串的一部分的词语或短语进行校正的校正命令,并且对与所述校正命令相对应的所述词语或短语进行校正;
将已校正的词语或短语存储在存储装置中;以及
当将所述语音转换为所述字符串时,如果已经将所述字符串的已校正的词语或短语存储在所述存储装置中,则产生与所述已校正的词语或短语相对应的选择候选,并且将所述选择候选作为所述语音的识别结果候选显示在所述显示装置上。
8.一种用于语音转换装置的语音转换方法,所述语音转换装置能够与语音识别单元通信,所述语音识别单元接收语音数据、将所述语音数据转换为字符串、并且将所述字符串传输给所述语音数据的发送方,所述语音转换方法包括:
将输入的语音转换为语音数据;
将所述语音数据传输给所述语音识别单元、然后从所述语音识别单元接收作为所述语音数据的转换结果的字符串;
在显示装置上显示所述字符串;
接受使得对作为在所述显示装置上显示的字符串的一部分的词语或短语进行校正的校正命令,并且对所述字符串的与所述校正命令相对应的所述词语或短语进行校正;
将已校正的词语或短语存储在存储装置中;以及
从所述语音识别单元接收所述字符串时,如果已经将所述字符串的已校正的词语或短语存储在所述存储装置中,则产生与所述已校正的词语或短语相对应的选择候选,并且将所述选择候选作为所述语音的识别结果候选显示在所述显示装置上。
9.一种计算机可读记录介质,所述计算机可读记录介质存储程序,所述程序使得计算机执行以下过程,包括:
语音识别过程,所述语音识别过程接受语音,并且将所述语音转换为字符串;
显示过程,所述显示过程在显示装置上显示所述字符串;
校正过程,所述校正过程接受使得对作为在所述显示装置上显示的字符串的一部分的词语或短语进行校正的校正命令,并且对与所述校正命令相对应的所述词语或短语进行校正;
存储过程,所述存储过程将已校正的词语或短语存储在存储装置中;以及
控制过程,当将所述语音转换为所述字符串时,如果已经将所述字符串的所述已校正的词语或短语存储在所述存储装置中,所述控制过程产生与所述已校正的词语或短语相对应的选择候选,并且将所述选择候选作为所述语音的识别结果候选显示在所述显示装置上。
10.一种计算机可读记录介质,所述计算机可读记录介质存储程序,所述程序使得能够与语音识别单元通信的计算机执行以下过程,所述语音识别单元接收语音数据、将所述语音数据转换为字符串、并且将所述字符串传输给所述语音数据的发送方,所述过程包括:
输出过程,所述输出过程将输入的语音转换为语音数据;
通信过程,所述通信过程将所述语音数据传输给所述语音识别单元、然后从所述语音识别单元接收作为所述语音数据的转换结果的字符串;
显示过程,所述显示过程在显示装置上显示所述字符串;
校正过程,所述校正过程接受使得对作为在所述显示装置上显示的字符串的一部分的词语或短语进行校正的校正命令,并且对所述字符串的与所述校正命令相对应的所述词语或短语进行校正;
存储过程,所述存储过程将已校正的词语或短语存储在存储装置中;以及
控制过程,当从所述语音识别单元接收所述字符串时,如果已经将所述字符串的所述已校正的词语或短语存储在所述存储装置中,所述控制过程产生与所述已校正的词语或短语相对应的选择候选,并且将所述选择候选作为所述语音的识别结果候选显示在所述显示装置上。
CN201180047298.6A 2010-09-29 2011-09-06 语音转换装置、便携电话终端、语音转换方法 Expired - Fee Related CN103140889B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010219053 2010-09-29
JP2010-219053 2010-09-29
PCT/JP2011/070248 WO2012043168A1 (ja) 2010-09-29 2011-09-06 音声変換装置、携帯電話端末、音声変換方法および記録媒体

Publications (2)

Publication Number Publication Date
CN103140889A true CN103140889A (zh) 2013-06-05
CN103140889B CN103140889B (zh) 2015-01-07

Family

ID=45892641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180047298.6A Expired - Fee Related CN103140889B (zh) 2010-09-29 2011-09-06 语音转换装置、便携电话终端、语音转换方法

Country Status (4)

Country Link
US (1) US20130179166A1 (zh)
JP (1) JP5874640B2 (zh)
CN (1) CN103140889B (zh)
WO (1) WO2012043168A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015158133A1 (zh) * 2014-04-14 2015-10-22 广东美的制冷设备有限公司 语音控制指令纠错方法和系统
CN105786438A (zh) * 2014-12-25 2016-07-20 联想(北京)有限公司 一种电子系统
CN107731229A (zh) * 2017-09-29 2018-02-23 百度在线网络技术(北京)有限公司 用于识别语音的方法和装置
CN110956020A (zh) * 2018-09-27 2020-04-03 富士通株式会社 呈现校正候选的方法、存储介质和信息处理设备
CN116312509A (zh) * 2023-01-13 2023-06-23 山东三宏信息科技有限公司 一种基于语音识别的终端id文本的校正方法、设备及介质

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9130778B2 (en) 2012-01-25 2015-09-08 Bitdefender IPR Management Ltd. Systems and methods for spam detection using frequency spectra of character strings
US8954519B2 (en) * 2012-01-25 2015-02-10 Bitdefender IPR Management Ltd. Systems and methods for spam detection using character histograms
CN103647880B (zh) * 2013-12-13 2015-11-18 南京丰泰通信技术股份有限公司 一种带有电话转译电文功能的电话机
KR102261552B1 (ko) 2014-06-30 2021-06-07 삼성전자주식회사 음성 명령어 제공 방법 및 이를 지원하는 전자 장치
US20180315415A1 (en) * 2017-04-26 2018-11-01 Soundhound, Inc. Virtual assistant with error identification
JP7159756B2 (ja) 2018-09-27 2022-10-25 富士通株式会社 音声再生区間の制御方法、音声再生区間の制御プログラムおよび情報処理装置
JP7520483B2 (ja) * 2018-12-27 2024-07-23 キヤノン株式会社 情報処理システム、情報処理装置、制御方法、プログラム
US11263198B2 (en) 2019-09-05 2022-03-01 Soundhound, Inc. System and method for detection and correction of a query
JP7463690B2 (ja) * 2019-10-31 2024-04-09 株式会社リコー サーバ装置、通信システム、情報処理方法、プログラムおよび記録媒体

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002287792A (ja) * 2001-03-27 2002-10-04 Denso Corp 音声認識装置
JP2004240234A (ja) * 2003-02-07 2004-08-26 Nippon Hoso Kyokai <Nhk> 文字列修正訓練サーバ、文字列修正訓練装置、文字列修正訓練方法および文字列修正訓練プログラム
CN1764944A (zh) * 2003-03-26 2006-04-26 皇家飞利浦电子股份有限公司 语音识别系统
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6791529B2 (en) * 2001-12-13 2004-09-14 Koninklijke Philips Electronics N.V. UI with graphics-assisted voice control system
JP2004309928A (ja) * 2003-04-09 2004-11-04 Casio Comput Co Ltd 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
US8880405B2 (en) * 2007-03-07 2014-11-04 Vlingo Corporation Application text entry in a mobile environment using a speech processing facility
KR101462932B1 (ko) * 2008-05-28 2014-12-04 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
JP2011002656A (ja) * 2009-06-18 2011-01-06 Nec Corp 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002287792A (ja) * 2001-03-27 2002-10-04 Denso Corp 音声認識装置
JP2004240234A (ja) * 2003-02-07 2004-08-26 Nippon Hoso Kyokai <Nhk> 文字列修正訓練サーバ、文字列修正訓練装置、文字列修正訓練方法および文字列修正訓練プログラム
CN1764944A (zh) * 2003-03-26 2006-04-26 皇家飞利浦电子股份有限公司 语音识别系统
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015158133A1 (zh) * 2014-04-14 2015-10-22 广东美的制冷设备有限公司 语音控制指令纠错方法和系统
CN105786438A (zh) * 2014-12-25 2016-07-20 联想(北京)有限公司 一种电子系统
CN107731229A (zh) * 2017-09-29 2018-02-23 百度在线网络技术(北京)有限公司 用于识别语音的方法和装置
US11011163B2 (en) 2017-09-29 2021-05-18 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for recognizing voice
CN110956020A (zh) * 2018-09-27 2020-04-03 富士通株式会社 呈现校正候选的方法、存储介质和信息处理设备
CN110956020B (zh) * 2018-09-27 2023-08-29 富士通株式会社 呈现校正候选的方法、存储介质和信息处理设备
CN116312509A (zh) * 2023-01-13 2023-06-23 山东三宏信息科技有限公司 一种基于语音识别的终端id文本的校正方法、设备及介质
CN116312509B (zh) * 2023-01-13 2024-03-01 山东三宏信息科技有限公司 一种基于语音识别的终端id文本的校正方法、设备及介质

Also Published As

Publication number Publication date
US20130179166A1 (en) 2013-07-11
JP5874640B2 (ja) 2016-03-02
CN103140889B (zh) 2015-01-07
JPWO2012043168A1 (ja) 2014-02-06
WO2012043168A1 (ja) 2012-04-05

Similar Documents

Publication Publication Date Title
CN103140889B (zh) 语音转换装置、便携电话终端、语音转换方法
CN111523306A (zh) 文本的纠错方法、装置和系统
CN111209396B (zh) 实体识别模型的训练方法及实体识别方法、相关装置
CN105404621A (zh) 一种用于盲人读取汉字的方法及系统
US20070288240A1 (en) User interface for text-to-phone conversion and method for correcting the same
CN110110334B (zh) 一种基于自然语言处理的远程会诊记录文本纠错方法
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
CN111145724B (zh) 一种多音字标注方法、装置以及计算机可读存储介质
CN112530404A (zh) 一种语音合成方法、语音合成装置及智能设备
CN109522550A (zh) 文本信息纠错方法、装置、计算机设备和存储介质
JP5025759B2 (ja) 発音矯正装置、発音矯正方法および記録媒体
US11907656B2 (en) Machine based expansion of contractions in text in digital media
KR20210108557A (ko) 음성 인식률의 향상을 위한 음성 인식 지원 방법 및 시스템
CN112464649A (zh) 多音字的拼音转换方法、装置、计算机设备和存储介质
KR20170132643A (ko) 문자 디스플레이 방법 및 그 장치
CN116229481A (zh) 一种关键信息抽取方法、装置、电子设备及存储介质
CN100561469C (zh) 创建和使用中文语言数据和用户自纠正数据的方法和系统
CN111354339B (zh) 词汇音素表构建方法、装置、设备及存储介质
US5974370A (en) System for reviewing its processing and method therefor
KR20140015933A (ko) 음성 인식률의 향상을 위한 음성 인식 지원 방법 및 시스템
JP6197523B2 (ja) 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム
CN115204182B (zh) 一种待校对电子书数据的识别方法及系统
CN111105780B (zh) 一种韵律纠正方法、装置以及计算机可读存储介质
CN115759087B (zh) 中文分词的方法、装置及电子设备
JP7541172B1 (ja) 情報生成装置、情報生成方法およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NEC CORP.

Free format text: FORMER OWNER: NEC MOBILE COMMUNICATION, LTD.

Effective date: 20150625

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee

Owner name: NEC MOBILE COMMUNICATION, LTD.

Free format text: FORMER NAME: NEC CASIO MOBILE COMMUNICATIONS, LTD.

CP01 Change in the name or title of a patent holder

Address after: Kanagawa, Japan

Patentee after: NEC Mobile Communications Ltd.

Address before: Kanagawa, Japan

Patentee before: NEC CASIO Mobile Communications, Ltd.

TR01 Transfer of patent right

Effective date of registration: 20150625

Address after: Tokyo, Japan

Patentee after: NEC Corp.

Address before: Kanagawa, Japan

Patentee before: NEC Mobile Communications Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150107

Termination date: 20180906

CF01 Termination of patent right due to non-payment of annual fee