CN1178940A - 计算机声纹输入法 - Google Patents

计算机声纹输入法 Download PDF

Info

Publication number
CN1178940A
CN1178940A CN 97112848 CN97112848A CN1178940A CN 1178940 A CN1178940 A CN 1178940A CN 97112848 CN97112848 CN 97112848 CN 97112848 A CN97112848 A CN 97112848A CN 1178940 A CN1178940 A CN 1178940A
Authority
CN
China
Prior art keywords
vocal print
word
standard
sound
sign indicating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 97112848
Other languages
English (en)
Inventor
林廷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 97112848 priority Critical patent/CN1178940A/zh
Publication of CN1178940A publication Critical patent/CN1178940A/zh
Priority to CN 98114665 priority patent/CN1210301A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

计算机声纹输入法(简称声纹法,下同)声纹法是利用人类声音的可辨认性,设法让计算机听懂人的语言,从而达到用声音输入文字给计算机的目的。声纹法可用于各种语言,但最适合汉语。会读中文的人都能用声纹法输入汉字,完全不需专门训练、学习。而且读字(输入)时允许使用各种方言、口音。

Description

计算机声纹输入法
本发明简称声纹法(下同),主要用于计算机的文字输入,尤其是汉字输入。
就本人所知,目前的计算机汉字输入技术方案众多,但真正实用、有代表性的大至只有几种,如“区位码输入法”、“拼音输入法”、“五笔字型输入法”,其中“五笔字型法”目前最流行,为众多专业人士所采用(见王永民所著《五笔字型》标准教材系列)。
本发明的目的是提供一种用声音输入汉字的方法(也可输入其他文字、符号),使非专业人士也能简单、方便、快捷地将汉字输入计算机中。
汉语常用字的发音总共只在一千三百个左右(见《现代汉语词典》78年版,下面有关词典内容的依据同此),每个字音可有多个同音字(至少一个)。如果计算机能“听懂”这一千三百个音,知道每个音所对应的拼音及其同音字,那么,当我们将要输入的字读给计算机,计算机就会将字音的拼音及全部同音字显示在显示器上,供我们选择。
但是,如何让计算机听懂字音呢?
人类指纹的特征性与重现性众人皆知,现代科学指出,人的声音也具有指纹的这些特性,所以也称作声纹。也就是说,当一个人重复读一个字时,每个字音信号反映在示波器上的图形,相互间会非常相似。本发明正是利用声纹的这种特性,采取对号入座的方式,让计算机“听懂”入的声音。
首先需要一个声音处理装置——“标准声纹制作器”(这是本人的命名)。它能将由麦克风送来的字音信号,逐个字音(单音节)进行标准化处理,制成标准声纹信息码(数码式),送给计算机。
每个人在第一次使用声纹法之前,必须先进行“预存标准声纹码输入”。由计算机按词典的顺序,将从a→zuo的一千三百个左右的拼音逐一显在显示器上,并用最常用的同音字作提示。使用者跟随屏幕逐一清楚地读出每一个字音。声音经麦克风→标准声纹制作器→计算机,每一个字音变成一组标准声纹信息码存入存储器中。例如,屏幕显出“ā阿”,待使用者读完“阿”音,计算机在收到“阿”音的标准声纹信息码后,再将a的下一个音“á啊”显示在屏幕上,这样一个一个下去,直至“zuò做”为止。这样,计算机就记住了使用者所读的从ā→zuò的一千三百个(左右)的字音。
经过“预存标准声纹码输入”步骤后,使用者就可用声音输入汉字了。做法是:将要输入的字(比如“中”字)读出,字音经麦克风→标准声纹制作器,化成标准声纹信息码,计算机将这组信息码与预存的一千三百组进行对比,从中找出最相似者(由于相同的机会小,所以将最相似者确认为相同),然后将此音的拼音及同音字显示在屏幕上(“中”字音的显示
      0  1   2   3   4   5   6   7是:zhōng中<忠、衷、钟、终、盅、螽、忪>),供使用者选择(按“0”或“确认键”,中字即被选出,其余字及拼音消失)。
可以看到,每个人只需进行一次“预存标准声纹码输入”后,就能重复不断地在同一部计算机上使用声纹法输入汉字,而此计算机对其他人的声音不予理会。实际应用时,每个人只要将自己的“标准声纹信息码”存在软盘中,就能带着软盘到任何一部有声纹法功能的计算机上使用声纹法。
将一千三百个音存入计算机,如果每秒一个,需时22分钟;若2秒一个,也不过需要43分钟。这种一劳永逸的付出,应该说声“值!”。
同一个人读同一个字,字音的声纹互相会很相似,但音量的大小、字音的长短却会有差别,“标准声纹制作器”的工作之一就是要消除这种差别。比如,用放大缩小的办法,将音信号的峰值统一;以峰值为中心,取0.4或0.6秒(须在实验中定)时间段为标准段,以避免音信号长短不一。
由于受环境噪声等因素干扰,同人同字音的声纹也很难100%重复。所以在实际中,并不要求声纹码的重复为100%,而只要求“相似”。至于相似的程度,应看实际效果而定,以“尽量大的检出概率和尽量小的出错率”为原则,从中找到平衡点。
目前“将汉字输入计算机”成了中国人使用计算机的最大障碍。虽然已推出的方案众多,却都未能摆脱“汉字的复杂性”这一缺点,更谈不上发挥汉语的优点。就拿“区位码法”、“拼音法”、“五笔法”为例:“区位码法”的缺点在于难以记住众多的编码;“拼音法”则要求使用者读音标准,熟悉拼音,这对于用惯方言,读不准普通话的人来说,也是难以使用;“五笔法”目前流行最广,但要使用它必须经过专门的学习训练;熟记一百多个字根及各种拆字组字规则,这对于非专业人士,尤其是记忆力不佳的人,困难很大。
其实,汉语的优点在于“由字组词,字加词组成句,总共1300个左右的常用字音就组成了千千万万的日常用语”。本发明正是发挥了汉语的这种优点,同时避开了汉字“字型复杂”这一缺点。在整个用声纹法输入汉字的过程中,人只需用口读字,用手按键盘选字,完全不需动脑去思考,用心去记忆,一切繁复的工作都由计算机去完成了。
还应指出,声纹法并不要求使用者一定用普通话,任何方言都能使用,甚至习惯性的错误读音也无妨(因为计算机按重复性规则选字)。
总的来说,只要懂得汉语(中文)的人,就能使用声纹法。
至于其他语言,如英语、日语等,也一样能用声纹法进行输入,其原理是一样的,只是具体的操作会和汉语有差别。比如英语,如果按字母输入,情况非常简单,但输入的速度可能不如手敲键盘快,如果按词输入,情况会非常复杂,因为英语的词汇数以万计。所以英语使用声纹法无优势(但对手有残疾的人优势明显),而其他与汉语结构相似的语言使用声纹法时,其优势与汉语相同。
要实现本发明,必须编制一套相应的计算机软件——声纹输入法软件(这是本人的命名),并研制出配套的专用设备——“标准声纹制作器”。可考虑做一种“声纹卡”(这是本人的命名),卡中含“标准声纹制作器”和“声纹输入法软件”,并有足够存储单元供软件运行。卡的一个接口接麦克风,另一个接口接计算机。这样,现在一般的计算机都能利用声纹卡输入汉字,无需增加存储单元。
声纹输入法软件除制成中文版外,还可制成其他语言的版本(输入其他文字用),或两种以上语言合用的版本。在程序编辑、运行时,也可用声纹法去输入数字、各种符号、命令等,这样既方便汉语软件的使用,又能加速各种软件的汉化。比如符号“(、)、>、<、=”,可分别用“左、右、大、小、等”字音代表,又如命令“IF”(假如)可用“假”字音代表,这些代表字音在中文编辑时代表汉字音,在程序编辑、软件运行时代表符号命令,只要小心处理就不会造成混乱。至于26个英文字母,用键盘输入已很方便,当然也能使用声纹法输入,但对“E、G”这样容易与汉语字音混淆的字母,需小心处理。
现举例说明声纹输入法软件的部分操作情况。例如要输入“中华人民共和国”,使用者首先对准麦克风读出“中”字音,计算机显示器就显出
    0  1   2                                     0  1“zhōng中(忠、终…)”,再读“华”音,显示变成“zhōng中(忠、
    ↑2         0  1   2终…)húa 划(滑、华)”,在健盘上按“2”,显示为“中华”,再读
     ↑
                   0  1   2   3“人”,显示“中华rén 人(仁、壬、任)”,再读“民”,显示为“中
                  ↑
  0  1   2   3     0  1   2华rén人(仁、壬、任)mín民(珉、岷…)”,再读“共”,显示为
                    ↑
      0  1   2   3      0  1  2        0  1   2   3“中华rén人(仁、壬、任)mín民(珉、岷…)gòng贡(共、供、质
                                         ↑)”,按“1”键,显示改为“中华人民共”。再读“和”,显示为“中
                               ↑
       0  1   2华人民共hé河(何、合…)”,将光标“↑”右移至“()”下,显示
       ↑
             0  1   2   3   4   5   6   7   8   9为“中华人民共hé河(何、合、核、荷、盒、和、禾、颌、郃…)”,按
                ↑“6”键,显示为“中华人民共和”,读“国”,显示为“中华人民共和
                        ↑
0  1   2guó国(馘、腘…)”,按“确认”键,显示为“中华人民共和国”。
↑                                                 ↑说明:符号“…”在“()”中,表示仍有同音字未显出。一般当光标不在“()”下时,“()”内的同音字只显2个(也可考虑3或4个),其余用“…”表示,但若“()”内的同音字不多过5个,则全部显出(如上面的“人”和“贡”字)。要选择“()”内未显出的字时,可将光标“↑”移至“()”内第一个字下面,“()”内即显出9个同音字(少于9个时全部显出,9个后面仍有的,用“…”表示,如上“河”字),若同音字很多,只要将“↑”往右移一位,“()”内即显出下一组9个同音字(前一组消失),由于最多的同音字是82个,减去“()”外一个,刚好81个,所以当“↑”移到“9”号位时,最多82个同音字的第82个字也已显出。“()”内字上面的数字“1、2…”表示位置,供选择用。按“1~9”键,光标所在音的“()”内相应位置的字就被确认,按“0”或“确认”键,“()”外拼音右面的字(0位置)就被确认。需确认的字在“0”位时,可不确认而直接读下一个字,后面的字被确的同时,前面未确认的字也会被确认(计算机自动选“0”位置字确认,如上面的“中华”,“华”字被确认时,“中”字自动被确认)。当“↑”停在空位或已确认的字下面时,按“0~9”键会输入“0~9”的数字(因为已无可确认之字)。用声纹法输入汉字时,键盘输入仍有效,即可同时用键盘输入数字、符号、英文字母。
经初步统计,同音字在6个以内的音占总数(1300)的60.5%,所以60%的字只按一键即可选出。同音字在10个以内的音占77.3%,同音字在19个以内的音占94.1%,所以需按键3次以上才能确认的字不足6%。

Claims (3)

  1. 请求对以下几项给予专利保护:
    1、计算机声纹输入法(简称声纹法,下同)。
    声纹法是利用人的语音将文字(以及符号、命令)输入计算机中的一种方法。声纹法主要用于汉字输入,也适用于其他语言。
    声纹法的特征是:(1)利用标准声纹制作器,将人读出的字音转化成计算机能接受、又易于对比的标准声纹信息码(数码式)。(2)利用人类声纹的特征性和重复性,采取对号入座的方式,先将使用者的声纹信息(汉语是一千三百个常用字音),通过标准声纹制作器制成标准声纹信息码,预存在计算机(存储器)中,并长期保留。今后使用者将想输入的字读出,计算机就将此字音转化成的标准声纹信息码,与预存的全部标准声纹信息码进行对比,从而确定此字音的内容,并将此字音的拼音及全部同音字显示在屏幕上,供使用者选择。
    “对号入座”的意思是指每个人只能用自己预存的标准声纹信息码输入文字,而不能使用其他人的预存标准声纹信息码输入文字,
  2. 2、声纹输入法软件(以下称“S软件”)
    “S软件”是用在计算机上,指挥计算机运行,以实现文字输入的一种软件产品,
    “S软件”的特征是含有声纹法的主要内容,能实现声纹法的使用价值和经济价值,制造“S软件”是实现声纹法经济价值的主要手段、“S软件”的部分操作内容如说明书中所述。
  3. 3、标准声纹制作器
    它是将使用者的语音转化成计算机能接受的数码式标准声纹信息码的装置,是声纹法的专用设备。
    其特征是能将麦克风送来的音信号按音节进行处理,将每个音节的信号制成以峰值为中心、时间长度相等、音量峰值大小统一、方便对比的标准声纹信息码。
CN 97112848 1997-07-11 1997-07-11 计算机声纹输入法 Pending CN1178940A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN 97112848 CN1178940A (zh) 1997-07-11 1997-07-11 计算机声纹输入法
CN 98114665 CN1210301A (zh) 1997-07-11 1998-06-30 计算机声纹输入法和拼音联想法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 97112848 CN1178940A (zh) 1997-07-11 1997-07-11 计算机声纹输入法

Publications (1)

Publication Number Publication Date
CN1178940A true CN1178940A (zh) 1998-04-15

Family

ID=5172509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 97112848 Pending CN1178940A (zh) 1997-07-11 1997-07-11 计算机声纹输入法

Country Status (1)

Country Link
CN (1) CN1178940A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101567187A (zh) * 2008-04-23 2009-10-28 冯石文 个人翻译器
CN101147186B (zh) * 2003-11-10 2010-05-26 微软公司 用于数据输入面板字符转换的工具和方法
CN105142055A (zh) * 2014-06-03 2015-12-09 阮勇华 声控耳机

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101147186B (zh) * 2003-11-10 2010-05-26 微软公司 用于数据输入面板字符转换的工具和方法
CN101567187A (zh) * 2008-04-23 2009-10-28 冯石文 个人翻译器
CN105142055A (zh) * 2014-06-03 2015-12-09 阮勇华 声控耳机

Similar Documents

Publication Publication Date Title
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
Bradshaw Three interrelated problems in reading: A review
US6321196B1 (en) Phonetic spelling for speech recognition
Dickinson et al. Language and computers
US5995934A (en) Method for recognizing alpha-numeric strings in a Chinese speech recognition system
US20060286514A1 (en) Method and system for spatial, appearance and acoustic coding of words and sentences
Goldsmith Probabilistic models of grammar: Phonology as information minimization
Fellbaum et al. Principles of electronic speech processing with applications for people with disabilities
US20120164607A1 (en) Application system of multidimensional chinese learning
Jang Speech rhythm metrics for automatic scoring of English speech by Korean EFL learners
Baker DRAGONDICTATE-30K: Natural language speech recognition with 30000 words
KR20040001594A (ko) 발음 사전 갱신 장치 및 방법
CN1178940A (zh) 计算机声纹输入法
Beddoes et al. A chord stenograph keyboard: A possible solution to the learning problem in stenography
JPH10269204A (ja) 中国語文書自動校正方法及びその装置
JP2011175220A (ja) 英単語・熟語習得プログラム
US20130149680A1 (en) Methods and systems for teaching a non-native language
EP1733382A2 (en) System and method for computer recognition and interpretation of arbitrary spoken-characters
US8408914B2 (en) System and method for learning Chinese character script and Chinese character-based scripts of other languages
JP2580568B2 (ja) 発音辞書更新装置
JPH09288493A (ja) 音声認識方法および音声認識装置、並びに情報処理方法および情報処理装置
Wagner et al. Isolated-word recognition of the complete vocabulary of spoken Chinese
Smith et al. English shorthand systems and abbreviatory conventions: A psychological perspective
Allen et al. A voice output module developed for a blind programmer
Glass et al. Language and computers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C01 Deemed withdrawal of patent application (patent law 1993)
WD01 Invention patent application deemed withdrawn after publication