CN86101508A - 语言计算机 - Google Patents
语言计算机 Download PDFInfo
- Publication number
- CN86101508A CN86101508A CN 86101508 CN86101508A CN86101508A CN 86101508 A CN86101508 A CN 86101508A CN 86101508 CN86101508 CN 86101508 CN 86101508 A CN86101508 A CN 86101508A CN 86101508 A CN86101508 A CN 86101508A
- Authority
- CN
- China
- Prior art keywords
- syllable
- sentence
- information
- signal
- debate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
这是一个关于用频谱分析法进行语音输入以及对文字信息进行处理的方案及其设备的发明。内容有:从语音辨识的角度建立一个知识环境和接收信息的环境;对所接收的信息进行分解、清洗、同步、简化、译码和比较以得到音节或拼音;从语气、语调和语法等方面将音节或拼音辨识为句子并注上标点。本发明可用于制造语音打字机、自动翻译电话、各种声控自动化设备以及各种工业和家用机器人。还可用来辨析其它各种以电波表示的物理量。
Description
本发明是关于计算机,特别是人工智能计算机的发明。计算机的广泛应用大大增强了人类改造自然的能力,但是这些计算机仍需人通过键盘来输入信息。为了使成千上万的科学家、作家和学者从枯燥的键盘输入和抄写中解放出来,使人们能对计算机口授命令,发明出以语音为媒介来进行输入的装置-多维逼近法计算机语音输入装置。鉴于在辩析和处理语言方面这个装置具有许多优异之处,作者将所有含有这类语音输入装置的计算机称作语言计算机。
需要指出,语音辩析至今未获突破,很重要的原因是有关的理论研究不够。为了弥补这一缺陷。作者不得不在说明书中花很大气力来深入讨论必要的理论问题以期有关的技术方案和解决问题的思路能更容易理解。
发达的语言在语言计算机中可具有三种确定的状态,它们是:语音、文字和计算机记录这些文字或语音的内部码(本文以下常简称为内码)。其中语音和文字是以前就有的,语音是语言最原始的状态,它的产生和被接收同时实现,它表示信息的形式具有瞬时性、空间性、渗透性和强制性。它所含信息一般要比文字多,如表示出喜怒哀乐、抑扬顿挫,强调不同的重点以及带有说话者的发音特征等。语音容易受到噪声影响,并且常常以不规范的形式被使用。此外语音的使用常伴随对现场环境的理解和对信息的反馈。文字是语言中最高级的状态,它表示信息的方式具有永久性和可传递性。常要求对文字的使用有较强的规范性,如加上各种标点符号,要求一定的书面格式等以保证对文字理解的一致性。语音和文字是语言的两种不同表现形式,构成发达的自然语言的两要素。体现语言的信息性、社会性和可处理性;内码是人们为处理自然语言而设计的一种低级无声语言,具有文字的某些属性。它仅向物理器件体现出信息性和可处理性,而不能体现出语言的社会性。由于社会性是语言的根本属性,所以首先要求语音、文字和内码这三种状态能够相互转换。图1以框图形式给出语言计算机中三种语言状态转换的示意图,它粗略地体现了语言计算机的功能。图中箭头(1)表示信号的流向,各方框中的内容表示信号所取的状态或表示信号流过时将受到的各种处理形式。通过语音辩析语言计算机能听懂声音,并将声音变成内码,通过图像辩析语言计算机可将书面文字,各种图像变成内码。各种信息以内码的形式在计算机内被处理和存储。内码可经语音合成变成声音由扬声器播出或另外以文字图像形式在显示屏上被显示。内码也可在计算机之间进行交换。语言计算机中的内码的具体形式将在语言计算机设计过程中逐步明朗。
为了更好地理解语音辩析的原理和工作过程,考察学生听写朗读这样一个例子。可以看到,为了完成这一作业学生必须具备以下三个条件:一、语音辩识的能力。二、按照辩析出的声音写出正确并符合格式的文字的能力。三、有不清楚的地方可以问。对应这三个条件语音辩析装置有三个功能部件,分别叫做:一、音节辩识器。用于从声音中辩析出各个音节和相应的句调。二、句子辩析器。用于从音节和附加信息中找到对应的文字并组成句子。三、视听反馈器。用于与人交流信息。这三个部件不仅可以将简单的声音转化为内码,而且可用来辩析出完整的句子,所以这些条件也是充分的。作者将具备这三个条件的装置叫做多维逼近法计算机语音输入装置,它是语言计算机中最重要的部分之一。所谓多维逼近法是根据线性代数中空间、空间的点、空间的维以及空间转换的概念,将语音辩析问题归结为将语音空间的某些点按一定法则转换到文字空间的对应的点的问题。其确切定义为:
在语音辩析过程中,我们所朗读的每个音节都是稠密的语音空间的一个点,这个音节所对应的词或词素都是文字空间的一个点。在 语音空间的点向文字空间的点转换的过程中,凡是能为找到某确定的文字空间的点而独立地提供新的有效信息从而缩小寻找范围向该确定的点逼近的每个方法都形成空间的一个维。空间中每个点的坐标都由这些维唯一确定。这种通过确定每个维的座标而找到空间某确定的点的方法称为多维逼近法。而信息在语言计算机中所取形式的变化可看作空间的变换。
辟如:将某本汉语书看作一个空间,书中的字就是空间的点。而书的版序、每版的页的序数、每页的行的序数、每行的字的序数,可分别看作时间维、高度维、前后维和左右维。如规定维的方向和基准点,则对于寻找每一个字,每个维都提供有效的信息并且书中每个字的坐标可由这四个维唯一确定。这样,在寻找某确定的字的过程中,每知道一个维的座标就是向这个字逼近了一步。同一空间,维的划分可以不同。
下面通过阐述这语音辩析装置是如何完成听写作业的来说明语音辩析中的多维逼近法和这个方法的具体实现。约定:机器可辩识商务印书馆1971年修订重排本《新华字典》收入的八千五百个字。(本文其它一些语言学资料也来源此书)。声音是用现代规范汉语的声音发出的且带有感情,机器理解这些声音并不需要附加环境和历史的知识。朗读的内容是:
我的平凡岁月里有了一个你,显得充满活力!
为了打印这句话所对应的文字,可以把汉语拼音(在我国台湾省,也正推广着一种汉语注音方案,但手头无可供研究的资料)的音节作为汉语语音辩识中的第一维,叫做音节维。它将声音转换到具体的汉语拼音和句调信息。句调是指一句口语中各个音节的具体形式和各音节之间的关系。对汉语来讲,句调包括重音、阴阳上去、儿化音、音节间隔、停顿、节奏和句子的语气、语调。音节维可以用将现场信号与内存标准信号比较的方法来实现。但对于辩析的内容多并且所辩析的声音有畸变、噪声大的情况。就需要寻找更有效的方法。有一种方法是先对接收的声音信号,进行模/数转换,然后再从这些数字化的信号中寻找对应的文字。但这种方法需要高精度、高速、大容量的模/数转换器、存储器和处理器。并且由于这方法本身固有的弱点,使其对信息量丰富的波形和相位的微小变化不敏感,对信号的校正和抗干扰的能力弱,从而使辩析质量难以进一步提高。为克服上述缺点,本发明设计出先用频谱分解法来获取一定数量的频谱分量的幅值和相位,然后从中选取部分或全部并根据信息估计器提供的信息对所选频谱分量进行校正后再通过译码比较等方法来求得对应的音节和句调这种从声音到拼音或音节的辩析方案。
图2是这种辩析方案的流程图。拾音得到的声波取电压形式(一般要通过电平保持等环节)经频谱分解和幅相鉴别转化成多个频谱分量的幅值和相对相位形式。这些幅相值经相量加法器校正后除去了由信息估计器模拟出的有规律的其它信号和畸变。它们被划分成各个独立的音节单元和确定语种或声音的类别后再由函数插值器进行同步和简化(为使辩析效率高,对简化后的内容可先进行一定的检查,以剔除部分无用信号)。同步后的幅相信号尝试进行译码,若译码成功即得到一个拼音或音节则对其进一步进行精细比较后将得到的各种句调信息与音节一起送到存储器或送到下一个语音辩析环节。这里要指出,对于在朗读中被略去的音素要“无”中生“有”补上,对于在朗读中由于联诵而含混的地方要加以澄清。如果因为噪声或声音失真太大译码不成功则由译码判断器根据附加信息寻找原因并从存储器中取出原始的幅相信号重新进行校正,同步和简化。这种再次校正由于可能由多种原因造成而要重复进行,为提高速度,可采用并行电路(当然第一次译码也可用这种并行电路)。图中仅用简略号(2)来表示并行器件中与虚线框(3)相同的部分。如重新校正后还不能译出有关拼音或音节则暂付阙如等以后的辩析中再加以解决。
先详细给出实现图2中部分框所述功能的技术方案及处理原则。由于所辩析声音信号中噪声的份量与拾音方式直接有关,所以要求或者使话筒尽量靠近声源或者使用定向话筒。电平保持除了对整个波进行外,也可对各个频谱分量进行放大,(由于在语言计算机中信号并不总是单相流动,并且各种处理因时因地而存在大同小异,对这种重复,说明往往扼要兼并)。频谱分解主要由滤波器阵列和幅相鉴别器实现,滤波器阵列可采用压电材料制成的滤波器组成,它们具有体积小,性能稳定,制造工艺简单等优点。由频谱分析的原理可知:任一周期波都可分解为多个不同频率的正弦信号。一般,声波的频谱为几十赫到几千赫范围。如果将语音的各个音节看作周期波,利用每个滤波器都对某一段频带呈现低阻抗的特性来对声波进行分解,就可获得每个音节的频谱分量。频谱分解中使用的滤波器多于两个时就称作滤波器阵列。由于压电晶体滤波器Q值高,频带可做得很窄,所以理论上对于声音的辩识精度可达很高的水平。以对每个音节采样N次,每次取M个频谱分量,每个频谱分量的幅值取A个精度等级,相位平均取P个精度等级计,共有S=〔A×P〕M×N个状态。这样即使频谱分量以频带形式出现,辩析精度仍很高。频谱分量的选取要综合考虑以下几个因素,1.它们是声波中特征显著而稳定并且容易除去干扰的频谱分量。2.对噪声干扰敏感性低。3.与采样器工作速度相匹配(尤其考虑卷积变频情况)。4.各频谱分量相角的求取要方便。A、P、M、N等数目要根据具体情况来定。
滤波的方法可分为以下两种:一种是直接滤波,由于压电滤波器的工作频率的限制,这种方法适用于500赫以上的频率。另一种方法是用卷积器将信号移到频率更高的频段再进行滤波。假设通过卷积器,用频率为F赫的正弦波与声波进行卷积,就会产生比原来的声波频率高F赫的新的频率。(当然,卷积也同时产生频率为两频率差值的低频信号,但可以选择F值使产生的低频讯号对语音辩析的影响很小。事实上经卷积后各频谱分量的相对幅值和相对相位仍可明确地被区分。另外,也可利用卷积对原讯号的影响来对讯号进行电平保持)。这样就可以用压电滤波器来对原来信号中的低频声波讯号进行频谱分解或滤波。由于这种方法工作频率高、时间常数小,因此可以减小由于把非周期波的音节信号看作周期波信号来处理而引起的误差,但这时对模/数转换器件的工作速度要求高。需要时也可以将上述两种方法组合使用。
幅相鉴别器由若干频谱分量采样器和幅相值求取器组成。其作用是将各频谱分量的幅值和各频谱分量的相对相位(简称相位)取出。用于校正和辩析出各种不同的拼音和音节。由于频谱分量的电平与某些集成电路器件的工作电压相匹配,所以频谱分量采样器可以是一些高速开关器件。可以用这些器件每隔一定时间辟如10毫秒对所有频谱分量采样一次。对每个频谱分量每次可分别采样相角范围在180°以内的数个点的幅值。由于所采样频谱分量的波形可以看作频率已知的正弦波,同时也知道采样时间间隔T所以由每个频谱分量的一次采样得到的数个相邻的采样点的值
Y1=AsinX,Y2=Asin(X+ωT),Y3=Asin(X+2ωT)……
根据公式:
A=[[(Y2-Y1cos(ωT)2+(Y1sin(ωT))2]/sin2(ωT)
…(1)
X=sin-1〔Y1/A〕 ……(2)
可分别得到频谱分量在采样初始时刻的幅值A和相位X的数值。语言计算机中用于计算这两个数值的器件叫做幅相值求取器。上面两式中sin(ωT),cos(ωT)为与每次采样中的相邻取数点之间的时间间隔有关的常数。当然实际计算时并非用上面的公式而是用通用的麦克劳林展开来求得基本初等函数再复合的算式。要指出:只要时间上允许,完全可将本发明分别叙述的数个专用计算电路用一个分时工作的通用计算电路来担当,这可充分利用硬件,降低成本,但这并不意味着可以以此否定作为本发明技术特征的各功能器件的存在;理论上对每个频谱分量只要每次采样取两个值就够了,但由于各频谱分量的幅值和相位不断变化,频谱分量实际上包括一段频带并且存在各种误差的影响所以用多采样几点求出多个幅值取平均值或由程序判断出最佳采样点后示出相应的幅相值的方法为好。这时相角的求取公式要做一些修正。由于声波等低频波幅相变化比较缓慢,所以可由插值法得到采样点之间的幅相值,这在后面另有叙述,如果仅需要算出频谱分量的幅值或相角的一种,相应的运算器仍叫做幅相值求取器。另外,视需要对每个算出的相角可采用两种记数体制,累计值和周期值记数制,由于相角是一个多值周期函数,还要规定具体的取值和划分区间的方法。
经滤波器阵列、频谱分量采样器、幅相值求取器三个环节,声音信号变成大量的频谱分量的幅相值信号,这些信号用于找出具体的音节或者拼音。考察这些信号的内容和特征可知其内容包括:一、可用于找到拼音或音节的真实信号。二、关于句调的信息。三、有规律的其它信号。四、具体的真实信号与标准信号之间的差异。五、随机干扰。六、各种误差。此外这些信号还存在内容过多,尚未划分成一个个音节以及信号采样时刻不同步等问题。采样不同步有两层意思:一是采样时刻的随机性。二是由于各频谱分量的频率不同而难于找到各频谱分量相角的相对关系。显然,这些问题的解决和对信号的处理直接关系到语音辩析的成败。而其内容归类既全面又合乎逻辑。
解决这些问题可以从在频谱分量幅相信号中除去有规律的其它信号着手,这是因为这些有规律的信号可以用简单的相量加减法从已取得的频谱分量信息中分离出来。所谓有规律的其它信号(从频谱分析的角度讲)是指那些可以由语言计算机对其分析后找到有关规律并且能精确地加以模拟的信号。它们或者是与要辩析的信号独立的信号(如噪声信号),或者是需要辩分的几个信号中的一个。如果几个都要辩析的信号在时间上不重叠则可以将它们与前段所述第四个内容-具体的真实信号与标准信号之间的差异归在一起,在精细比较时再根据其特征来加以区别。如果这几个需要辩析的信号相互重叠则要求在重叠处至多只有一个信号不能由信号估计器等估计出或不能由有关存储设备提供。
举一个分离有规律信号的例子:在频谱分量幅相信息中含有且仅有三个已知类型的信号:第一个信号是时起时伏的噪声,不需辩析。第二个信号是作为配音的电子音乐。第三个信号是解说员的解说声。第二、第三两个信号有重叠并且都要加以辩析。假定噪声信号可以由一个磁传感器检测出并可以被模拟出,电子音乐的内容可以根据对解说声不出现时的片段(的频谱分量幅相值)的分析而精确地检测到并模拟出。这样就可以用相量加减法在原始的各频谱分量采样值中减去这个噪声和音乐声的办法来获得有关解说声的信息并进行辩析。
语言计算机中用来检测和分析有规律的信号的部件叫做信号估计器。这里检测分两种:一种是检测有规律信号的频谱分量;另一种是用其它传感器。信号估计器由传感器、处理器和信号发生器等组成,它除了可以检测、分析和模拟多种有规律的信号外还可以通过反复比较和不断克服估计信号与现实信号之间的差异来更准地估计信号。(这种估计器在现代控制理论及其应用中已被深入研究和广泛使用,故不再赘述)。视需要,信息估计器可提供连续或数字形式的估计信号。
从一个正弦信号中加上或除去一个正弦信号可用相量加减法来实现,这就是所谓的校正。设两相量:
则两相量的和或差
j〔A1sin(θ1)±A2sin(θ2)〕
=A3cos(θ3)+jA3sin(θ3)=θ3
其中A3=A3=+[(A1cos(θ1)±A2eos(θ2))2+
θ3=tg-1〔(A1sin(θ1)±A2sin(θ2))/
(A1cos(θ1)±A2cos(θ2))〕
频谱分解法可以有效地除去噪声(当需要时也可根据相量加减法来对信号进行校正,一般在相量加减运算后还要进行电平保持)从而提高了语音辩析的效率,这是频谱分解法特有的优点之一。另外,由于噪声的频带较窄,有时在频谱分量中没有反映(这也可用来指导选择频谱分量)。有时噪声仅对少数频谱分量有影响,这时可将这少数频谱分量(一般是一个)扬弃或改换用备用的频谱分量(保留一些备用频谱分量也是抗噪声的有效方法之一,但相应的内存也要增加,处理也更复杂)。这两种现象使频谱分解法在很大程度上对噪声不敏感,这也是频谱分解法的优点。在只有一个辩析信号时对以上两种情况以及辩析信号纯正的情况都可以不用信号估计器。
如图2所示,校正后的频谱分量幅相值接下来要划分出音节。划分音节的器件叫做音节判断器。这里先要澄清音节判断器判断的最小语音单位是什么?最小语音单位可以有两种:1.以音素-约五十个国际音标为最小语音单位,这种方法具有通用性强、比较精确、所需辨别的状态等优点,并且它还可以区分出声音的微小差别,产生出新的音素和音节记号。特别适合于以多音节词为主要内容的语言,但是正确划分和辩析音素比较困难并且它还有一个将音素组成标准音节的问题,由于事实上拼音文字的发音中常有一些音素被略去和音节联诵的情形,这时以音素为最小语音单位就显得不够简洁。2.以拼音音节为最小语音单位。一般来讲音节由辅音音素和一个元音音素组合而成。在汉语取声母和韵母相拼的形式。对汉语等单音节字语音来讲这种方法更具有划分音节方便,可以减少机器运算次数等优点。实质上,这两种方法并无明显的界限,例如汉语中的“衣”字的拼音的读音与国际音标中的一个元音音素的读音一样。所以,约定以音节为最小辩析单位进行讨论。(以其它语音层次为最小辩析单位的技术方案只是工作对象的选择问题。并且作者还认为从技术方案角度讲,从声音到拼音或音节的辩析过程中,其它语言的辩析与汉语的辩析相比大同小异)。
汉语的每个音节一般以声母开始,接着是声母和韵母相拼音,最后是余韵即韵母读音体现出四声后消失。(也有一些特殊情况,有时汉语拼音没有真正的声母,有时还有轻声、儿化音现象)可以根据每个韵母(或元音)读音响亮从而使音节首尾的声能强度比中间处小以及汉语拼音的余韵阶段声波相似这些现象(这只是噪声小的理想情况,当噪声大时情况要复杂得多,另外可能时也可综合其它有关信息),对相邻采样点的信号进行测量和比较来判断音节的起始变换和结束。具体讲,可根据各频谱分量幅值的平方和(简称幅值平方和,要求其能体现声能的强度)的值来判断该时刻有无语音输入。当语音输入时,由幅值平方和可知其起始、停顿和结束的时刻。至于音节的变化可用各频谱分量相邻采样点的幅值和相位值差分再平方后所得的和(这个和可简称为差分值。或者也可根据需要将幅值和相位值分别或单独差分再平方后求和)的量值为判断。以汉语每分钟输入200个音节计,每音节占用时间约330毫秒,汉语标准音节读音较响亮的时间约为250毫秒(参考值),而相应的稳定阶段即声波波形相似(要求其时的声波频谱分量的幅相值也相似)阶段约为200~250毫秒(参考值)。根据音节输入开始时差分值大;接着进入稳定阶段,这时差分值很小;在音节变化时差分值也大,这样就可得到音节的作用时间。将语音输入时具体的音节持续时间与由统计得到的音节标准持续时间比较,就可得到音节有无儿化音和音节节奏等信息。当然由音节判断器也同时得到音节间的间隔和停顿等信息,这些信息保存于句调信息存储器内。语音计算机内用于获得音节信息的器件叫做音节判断器,它们主要是用于比较的数值运算器。上面所述的音节的持续等时间还可用来判断不同的语言类型和声音类别。需要时这一功能也可在音节判断器内实现。
图3为一些具体的声波波形。这些波形告诉我们:我们尽可以重复一个音节,每个音节也会有一些相似的部分,但我们不可能不间断地发出一个音节。并告诉我们作为每个音节的内容的频谱分量的幅相曲线是有一定规律的。
上述众多的幅相采样值用于寻找的汉语拼音的状态约有1136个带四声或384个未计四声的音节,它们由21个声母和35个韵母组合而成,即使考虑不同的句调对音节的影响和状态分布不均匀等因素,表达所有这些汉语拼音有一万至十万个状态也就够了,顺便指出这个数目也是目前计算机内存在所可以承担的。然而现在所有这些幅相值的数量却可以轻易地达到10的20次幂,这样平均每个状态大约要用一百多个输入信号,并且可能有数亿个不同的输入信号对应同一个输出,这还未计采样不同步对输入状态增加的影响。必须将这些信号在保证精度的前提下进行缩减和同步化。为此,本发明提出用函数插值的方法来解决这缩减和同步的问题。这里所谓插值就是根据采用点所提供的一定数量的幅相值来构造一个以音节作用时间为自变量,幅相值为因变量的函数(通常这个函数取曲线形式),并由这所构造的函数计算机出少数几个规定时刻(作为自变量)的函数值来达到对采样信号进行缩减和同步的目的。语言计算机中实现函数插值运算功能的器件就叫做函数插值运算器,它也可以和译码比较器制成一体。对于函数插值主要说明两点:一、插值(同步)时间的确定。二、如何实现函数插值运算器的最佳化。
插值时间的确定有两种。第一种方法根据音节判断器提供的音节稳定时间(通过比较对幅值的差分得到)来规定(由卷积对这种方法造成的误差可以忽略)。这种方法简单,但同步精度较低。第二种方法根据各频谱分量的相角关系来确定。其原理是:先由音节判断器根据频谱分量最稳定的时间来决定采样点的采样时间范围(约数十毫秒)。然后再由各频谱分量的相角来精确地找到同步时刻。本发明的一种方案是对每个音节的各频谱分量的相角同时取周期值和累计值(起始时间由音节判断器给出)并设计一个算式将各频谱分量的频率相减来产生一个很低的频率称为同步频率,同步频率的周期应等于或略大于(1至1.2倍)上述的采样时间范围。然后再在这个同步频率与采样时间范围对应的一整个周期(可左右对称扩大)中找到与规定的采样相角相同的相角(如恰好同时找到两个则可选一个或取两者中间值)。所找到的相角对应的时刻就作为标准采样时刻(或作为插值基准时刻)。因为这个时刻完全由该音节的频谱分量的信息决定。所以这就实现了相同音节的精确同步(这里忽略了某些干扰和器件工作特性漂移等误差)。另外可将这些同步点的各频谱分量的相角值与标准信号的相角值相比较来了解两者之间的差异。在设计算式时可以将某些常数与频谱分量的频率相乘以便得到要求的同步频率,一般是对低频进行放大以使同步频率对干扰不敏感。当然常数的作用不限于此。用于求得精确的同步时间(插值时间)的这第二种方法叫做低频定位法。这是作者对于频谱分析技术做出的一个重要研究成果。(只要固定算式,卷积对相角实际上就毫无影响)。
举例,设总共取四个频谱分量,分别为:F1=117赫,F2=461赫,F3=905赫,ω4=1747赫;采样时间范围为Tc:从180毫秒到210毫秒,采样相角φx为100°(取周期值)。并设各频谱分量的初始相角和∑φio为24°。这时由算式:
Ft=F4-F3-F2-3F1……(3)
φX=2π×Ft×Tc+∑φioTc=180,210……(4)
可算得同步频率Ft为30赫(对应周期为33毫秒符合要求)以及采样Tc为204毫秒,((4)式右边取周期值)。当然标准信号的采样时刻也来源于此。以这个时间作插值法点得到的函数值就是同步采样幅值。当然可以设计出多种类似的方法,并可以取得多个插值点。这些方法的指导原则是先由差分值定出采样范围,再根据相角确定采样时刻。
各频谱分量相角的相对变化可由下式:
△φi=ωit+ωio-2πFilt……(5)
求得。它除了反映音节的变化,还体现着不同的语气等句调信息,并可用于噪声估计。(5)式中Fil为各频谱分量的理论值,ωit+φio为音节中各频谱分量相角的累计值。
再讨论第二个问题,如何实现函数插值器的最佳化。函数插值器是语音辩析的关键环节。经函数插值器处理,频谱分量信号受到了深刻的变革。注意到从函数插值得到的信号是用于译码比较来寻找音节和产生句调信息的。而插值处理前这些以音节为单位的幅相信号包含了需要辩析的第一、第二和第四个内容以及需要予以克服的第五、第六个内容。这就要求函数插值器能综合解决这些问题。这些问题的解决涉及函数构造及对信息的处理方法,采样信号的具体形式和执行插值计算的器件的质量等问题。鉴于采样信号的具体形式与不同的辩析对象有关,并且主要是个统计学的问题;执行插值计算的器件的质量取决于大规模集成电路设计制造的水平。(顺便指出:本说明书中讲到的各种处理器件,如幅相值求取器,函数插值运算器等都是一般功能的运算器。所属技术领域的普通技术人员在基本了解语言计算机原理和对有关器件的功能要求后是能设计和制造出这些器件的)因此这里仅讨论函数构造及对信息的处理方法问题。
对于具体的内容视要求可以采用不同的措施。对于第一个内容,主要以取出可相互区别的特征为重点。对此,规范的函数插值具有能充分利用相角信息的作用,便于相互比较,並且其物理意义明显等优点;也可以对有关内容从其它角度进行处理,例如对于第二个内容-句调信息,具体讲是指重音、阴阳上去、语气、语调等需辩析的句调信息,这些信息不能用几个点的幅相值译码或比较得到,而是要(用统计等方法)立即求得。本发明提出一个技术方案是:对重音用将一定数量如一句句子所包括的(这就要等到辩出文字后)音节的声能强度进行比较来判别。对语调阴阳上去可用韵母阶段的幅相值的曲线特性来判别。其具体做法可参照本文对语气信息的处理的叙述触类旁通。语气从频谱分析角度讲,就是音节中各频谱分量的相角变化程度和声音中高频与低频成分的比值的大小等。在音节内部相角变化体现声波频率的变化速度,这可根据单位时间内△φi的值知道。约定频率变化高时相角变化为正。这样波形的频率变化可以通过其一个频谱分量(实际是一段频带)的相角变动来观察到。相角变化为正表明肯定和希望等语气,变化为负则表示疑问、否定和不感兴趣等语气;声音中高低频成分之比体现讲话者对这些内容贯注的注意力从而可反映出这些言词的相对重要性,它可由将几个频谱分量幅值相比较而得到。音节中高频分量愈大,表明讲话者对这些言词愈重视;也可根据这个比值的突然变化来了解讲话者注意力或讲话对象的转移。当然一个音节中各种信息都不是孤立的,需要加以综合考虑。(对第二个内容的获得不符合通常意义上的函数插值。因此将获得本段所述的句调信息的器件称为句调信息分辨器);有的内容要在译码后才能辩析出,这就要求在构造插值曲线时予以照顾,如对第四个内容;对于第五个内容:随机干扰可以在对频谱分量幅相信号进行统计后以音节为单位进行校正。随机干扰的特征是它的特续时间与音节时间的长短很接近,这就决定它们既不是有规律的其它信号,又不像第六个内容-各种误差那样随机性仅体现在各个采样值上。对随机干扰可以根据音节的频谱分量幅相值具有一定规律这一点来克服。辟如,根据由统计得出的各频谱分量幅相信号的关系判断出音节中某频谱分量的最后一段内容表现出的干扰信号来直接对该频谱分量在插值点的值进行校正。对第六个内容-各种误差可以用对采样值进行线性回归和增加信噪比的方法解决。线性回归是处理一组有随机误差的数值的有效方法。当然还有许多处理以上内容的有效方法。综上所述可以用这样的方法来构造(找到)最佳插值曲线,这就是:对所辩析的语言轮流在一个音节的所有采样值中除去一个采样值,再选择一个或数个插值曲线,这些曲线能根据余下的采样信号来计算出那些被除去的采样值,计算出的采样值代替原始的采样值再进行函数插值能得到受各种误差影响最小的同步幅相信号。此外,还要求这个曲线比较容易综合利用对随机干扰的估计信息并能有效地克服随机干扰。利用这样的曲线对采样信号进行函数插值可以看作是对信号进行了一次清洗和同步。作者认为:声音辩析中函数插值曲线的设计等有关处理方法应发展成为一门专门的应用数学。
除了根据信号内容在处理措施上分而治之外,在工作方式上可以采用闭环控制。即如果第一次译码失败(没有得到结果或由语法执行器等判断译码结果为错以及在多音节词语言的辩识中由于朗读含混等造成)或者在译码比较之前对清洗和同步后的信号初步判断为无用信号则可以通过检查清洗后的信号的内容来寻找失败的原因并根据这些原因来重新校正和重新进行函数插值以及对含混的音节进行整理的方法来寻求解决。当可能的原因较多并且要求处理这些信息的硬件各有差别时可采用并行器件工作方式。图2的虚线方框(4)的内容表示了这种闭环控制(其中包括了人工干预的手段)。
清洗和同步后的信号用于寻找对应的音节。寻找既可用译码法也可用比较法或两者兼用的方法来进行。执行译码、比较的器件就叫做译码比较器。考虑到输入信号总有一定偏差,采用先用译码法找出部分内容或有关内容的大致范围,再进一步用精细比较的方法来寻找音节和有关句调信息。这种方法既可找到音节、又可提供发音者的特征以及真实信号与标准信号(包括内存的音节和判断发音特征用的专用语句等)的差异。这特征可用来判别用户,差异可以用来使信息估计器更精确地跟踪其模拟的对象。本发明中将句调信息分辨器、函数插值器、重复校正插值的器件以及执行低频定位、精细比较、估计并消除随机干扰的器件统称为函数插值器阵列。至此完成了对音节辩识器(音节维)将语言辩析为音节或汉语拼音的功能的说明。并认为那句听写的内容已由音节辩析器辩析为正确的汉语拼音。音节维将汉字的搜索范围平均缩小3个数量级。(当然可以用键盘输入声母、韵声或元音、辅音音素来代替上述功能,并结合本说明书的后述内容来输入信息,但这不是本文作者的目的)。
由于汉字以单音节字为语言元素,并且广泛存在着一音多字的现象,所以要解决从汉语拼音找到正确的汉字的问题。解决这些同音字较多的语言从注音到文字的辩析的一个方法是使用显示屏来显示汉语拼音或音标,同时在所显示的汉语拼音和音标下面列出所有可能的同声汉字(或其它语言的文字及字母组合)。并且采用覆盖在显示屏上的透明隐形键盘(一种看上去象玻璃的隐形键盘已有商品出售),通过按键(实际上只是对准屏上所需输入的汉字或其它文字碰一下)来输入信息。这里有必要指出,由于这种隐形键盘具有使用方便,可靠、体积小等优点,很适用于制版和修改稿件,所以在多维逼近法语音输入装置里这种键盘选字方法被称为最后维而加以保留。仅有音节维和最后维的语音输入装置对于输入那些文字与读音之间有着简单明确关系指可由拼音或音节经译码找到的文字的语言文字-如日语假名和音节朗读清晰的拼音文字已具有实用价值。但对于输入汉语,日文汉字和音节朗读不清晰(指由于音节联诵而造成的不清晰,这是规范语言允许的)的拼音文字如下面这句英语(译成汉语是:“你能理解我的意思吗?”后面方括号内是实际交谈时朗读的音节)Do you understand what I mean?〔djende'st&nwadai'min〕则由于仍须经常用于手按键因而效果不能令人满意。但也不可能用比较整句句子的方法来进行输入。为此本发明设计出通过划分介于句子和单音节字之间的层次-句子成分的方法来实现从音节到文字的辩析。作者将语音输入装置中实现从音节到文字的辩析的硬件称为句子辩析器。
《表一》是一个句子成分表,适用于汉语、英语等语言。表中上栏指出句子各成分的一种秩序,下栏说明句子成分的内容。句子成分一般由词或词组来担当。当然经常有某些成分被省略或甚至用一句句子来担当句子成分的情况,但这对本发明的辩析方法并无影响。
《表一》
1 | 2 | 3 | 4 | 5 | 6 |
谁?什么? | 何时? | 在哪里? | 行为 | 谁?什么? | 怎么样? |
从语言学角度讲,语言是思维的形式,思维用概念来组织,而概念则是用词来表达的。由于概念具有某种独立性和完整性,所以除少数例外,一般在讲话中组成每个词的各音节总是具有相关的语气,并体现出节奏感,节奏感一是指组成一个词的音节总是读得比较紧凑的。二是指句子作为一个独立的单元,从语调的角度看,它有一定的封闭性,即在一句句子中既不能另外加进也不能从中减去一部分语调,这可以用来划分句子,尤其是对于读起来连绵不断的文字。又因为已经得到了说话者语气、语调的信息,所以可根据语气语调和节奏来划分词、词组和句子。
还有一个现象对划分句子成分具有重要意义,这就是发达的语言在其进化过程中产生了许多使用频率高且又容易根据声音(拼音或音节)来辩识的词(本文简称其为关键词)如汉语的我、你、我们、的、这、吗等词(这些词的音节对应的同音词分别有1、3、1、5、1、3个)以及日语的格助词;英语、法语、德语中的冠词、介词等。这些关键词与音节间隔、节奏、各音节的语气等信息一起对语音辩析中句子成分的划分起着很大的作用。由于根据语气和关键词能将单个音节划分为词和词组,并且组成词和词组的音节数通常较少(对汉语来讲平均为两个),又由于多音节词的同音词现象极少并且对于这种现象可以根据语法规则来判断和加以选择。所以对于这些音节与词之间有着简单明确关系的词(主要是双音节词)用比较法或译码法都能容易地实现从音节到文字的辩析。而根据这些已辩析出的词的语法性质又可以容易地确定它们和其它的词(音节)所充当的句子成分以及朗读中简略的音素,并将它们变成单词、组成句子(加注上标点符号)从而完成语音辩析(机器听写)的任务。
上面讲到的根据语法规则来对词或词组进行判断选择意味着要独立地存储每个字、词和词组,并且还要存储它们的语法信息甚至它们的意义。但一旦这样做了就可以进一步实现对每个句子进行句型编码,这对于实现用机器对语言加以进一步处理将是很有用的。这里假设已经实现了这种对字、词、句的编码,其具体形式在讨论中逐步确定。
从音节到句子的辩析还需确定格式和标点符号。有两种加注标点符号的方案。第一种用键盘输入的方法(说明略);第二种方法用机器判别。这时规定:使用本装置时在需要标点符号处要加以停顿,但允许有多余的停顿。现以两句具体的句子来说明。第一句是上面那句英语(假定它已辩析为正确的文字)。由于它用可引起一般疑问句的助动词开头,如考虑为一般疑问句,必定要在紧接于助动词后的主语后跟一个作谓语的原形动词,由于这动词后是一个可引导宾语从句的关系代词,所以这关系代词后不应加标点,又因这关系代词后面的两个词组成一句宾语从句且紧接着一个停顿,所以就可以标注一个问号来结束句子。这个过程可用数学式表示,见图4。图4是一个表,(称为表二)它用数学方程式运算的形式描述了多维逼近法语言输入装置根据已辩析出的(英语)单词求出标点符号形式及其标注地点的过程。实现求取标点符号及标注地点功能的器件称为标点符号发生器;表中记X10为所求标点符号的目标函数,它由等号与体现语法规则的方程式相联。方程式是以一些项的和形式给出的,用于求取标点符号的具体形式和所加注的地方。方程式中的项用数字和英语字母的组合来标记。数字对应于《表一》中的句子成分序数、字母表示对于对句子成分进一步分类的编号,进一步分类是指将名词再分成抽象名词和具体名词、将动词分成及物和不及物动词等。(表二中单词后括号内的内容表示作者设计的一种语法编码方案。)当充当这个成分的已辩析出的单词全部出现了就在目标函数的方程式中将其对应项减去或对方程式加以改变,当方程式中所有的项都消失时,就可用根据语法所产生的标点符号来结束句子。表二第一格中的箭头表示由第一个词建立句子的目标函数,它将一般情况下与表一对应的六个成分齐全(用6个项来表示)的方程式简化为三个项并已规定句子结束时用问号。表的第四格中由于宾语取宾语从句的形式,所以又要求重新建立有足够多的项的方程式,这里根据实际情况只要求两个项,这是因为后面只有两个词而最少也要有与1A和4A对应的两个项的缘故。当然这是在单词全部辩析正确、配备语法信息并且句子本身符合语法规则的前提下讲的。对于德语和法语虽然其动词时态变化要比英语更复杂一些,但建立机器判断格式和标点符号的数学方程式并不比英语的难。并且对执行这些运算的物理器件的要求也基本一致。对于日语,因其句子中有许多语法作用明显的格助词,并常以谓语结尾,所以也可很容易实现将语法规则列成数学式来帮助辩析和对文字加注标点符号并用机器来加以实现。然而对于字还没有辩识出的拼音辟如汉语拼音则标注标点符号的方法有所不同。
汉语,它的动词变化形式既简单又有规律。对于汉语中存在动词和名词、名词的不同格有时具有同样形式这个问题,在实际的辩析中影响并不大。因为在句子中,汉语的每个词起的作用是很明确的;而从存储角度讲这是一个优点。下面用前面那句已实现从声音到汉语拼音的辩析的听写例句来说明本发明如向实现从汉语拼音和句调信息到具体汉字的辩析。这句话的汉语拼音显示于图5,图5是一个表,称为表三。表三第十行以上的部分可看作是仅有拼音维和最后维的辩析装置的带有隐型键盘的屏幕在刚实现音节维后的屏面内容。表三的第一行是汉语拼音,拼音下面各行是对应的同音汉字,第10行是以这个拼音注音的汉字的数目,第十二行的划线表示对朗读节奏的最佳划分,这对于多数使用者来讲是容易理解和强调的。(虽然本发明不打算依赖这种强调)。在正常情况下,“我”字以及“你”和“力”字后的停顿可立即辩析出。若先考虑把前面十八个字作为一个单元来辩析。由于有了“的……里”这个关键词词组,可知(这里的知是指根据字、词的语法编码而得知)其中间四个尚未译出的字是一个名词意义的成分;还可以知道“我”字是所有格以及前面七个字在句中作成分三。再根据汉语的词一般为两个字以及这中间四个字的节奏等句调信息可容易辩析出它们是“平凡岁月”四个字。一般在成分三后总是成分四,并且第九个字可能是个可组成汉语动词完成时的词素“了”字,因而有理由考虑这成分三后两个字作为成分四并辩析出是“有了”两字以及成分四后三个字充当成分五。再对这三个字按语法在数词、量词、名词的意义上进行辩析立即得到正确的字并由这些字的语法信息证明这些推论。因第十二个字后的短暂停顿和停顿后的到这单元末的六个字符合汉语句子成分六的语法习惯。同时对后面六个字按(节奏)两字一组辩析立得“活力”两字。假设这后六个字作成分六,立得其中第二个字是“得”字和第一个字是个动词。作为可带一个短语形成表一中成分六的动词,并且后面作为补语的四个字的后两个字“活力”是个抽象的名词,所以由语法知在这些同音字中除了“显”字外皆不合适。又根据语法第十五、第十六个字要求与“活力”一词形成动宾结构故这两字的后者只能选“满”字,对前者由于活力是个抽象名词,只有“充”字能带这样的宾语(并由此证实第一个字也应该是“显”字)。由设,朗读句子的激情可被辩析出所以用惊叹号结束句子。由于停顿在成分五和成分六之间且句子朗读规范所以可用逗号标注这个停顿。图6是一个表,称为表四。它以数学式运算流程的形式描述了这句汉语拼音由机器划分出句子成分(再辩析出具体汉字)并根据语法产生出标点符号的过程。表的上栏中“01”是指拼音句子的编号,括号内字母P和后面的数字表示汉语拼音的序数,字母A和后面的数字表示停顿的序数,这些记号组成的和式表示:第十二个汉语拼音(P12)后有个停顿(A1),第十八个拼音后有停顿并结束。下栏的箭头表示由该箭头左边的所有内容(再加上其它信息)可由句子辩析器根据关键词、语气、语调和语法规则(它们相应地可称为语气维、语调维和语法维)得到箭头所指的辩识结果。据上所述,不难理解表的含意:第一步(由第一个箭头表示)由第一、第二、第七个字(汉语拼音,为关键词)的意义可得出前七个字充当句子成分三;再由这些信息进一步辩析出第八、第九个字作为成分四;……,并最后产生出相应的标点符号同时注明位置。最后辩析的内容见表三的第十一行。对于从句子成分到具体汉字的辩析的数学式及运算流程本文省略了;其辩析原理是:首先对字和由字组成的词从语法角度用数字进行编码,编码的具体形式和内容要满足一般辩析过程的需要,辟如:每个字或词在要求(与别的字或词一起)作某个句子成分时它本身的语法特点以及它与别的字的关系这样的内容(可参见上例),还要求这种编码形式要适于进行运算和存储。(至此作者认为交待了对字、词和词组进行编码的基本形式要求。另外,运算器和存储器也应适合这种编码。)然后在辩析过程中对这些同音字的编码分别进行判断(用数学式对其求解)的方法来寻找出正确的字。进行这种数字化的语法规则的运算并提供有关辩析结果的硬件称为语法执行器。在形式上它是一些大规模集成电路,它的功能特征是:用于提高语音输入的辩识率、改正所辩识的语言中存在的语法错误和对语音输入的文字加注标点。
除了利用句调信息和按两字一词进行译码外,当然还可利用其它有关信息(辟如通过摄像器对现场的了解声音究竟是人亲自发出的还是另一台语言计算机中发出的。再辟如可以在语音输入装置中设置自定义词汇存储器,它具有最高的译码优先级特别适于处理有新的词汇如名字以及需要保密等情况)以及将属于一个句子成分的各个音节按其它的组合来进行译码。至此,完成了对句子辩析器将音节或拼音划分成句子成分、转换成正确的字、将字联成句子并加注标点的技术方案的说明。句子辩析器主要由语法执行器组成。
视听反馈器从某种意义上讲就是能简单地实现图1所示信息变换和处理功能的语言计算机,利用本发明的其它部件以及现有技术是可以造出符合需要的视听反馈器并用来进行帮助辩析和输入的。至此完成了对多维逼近法计算机语音输入装置的原理、制造及其进行声音识别的说明。这个装置的优点之一是使计算机的使用更加方便、应用更加广泛。
频谱分解法除用以辩识人的自然语言外它还可用以辩识其它声音如机器运转声、海豚的语言声。进一步这方法还可以辩析各种可用电波形式来表达的物理量诸如动物的脑电波,植物的生物波,心脏的磁场分布。这些物理量连同声音一起统称为一般波,一般波的一个特征是其频率范围通过卷积可移至几百到几千赫范围,这就可用各种(如压电、电感电容)滤波器来对一般波进行频谱分解。这样语音辩析装置就升级为一般波辩析装置了。一般波辩析装置可用于以(低频)电磁波和声波为媒介(自然媒介、通过各种传感器)将各种信息,尤其是人的思想输入到电子计算机以及各种自动控制设备和各种声控玩具,还用于通过辩析一般波来研究发出这些波的物体的特性。根据需要,一般波辩析装置中对为辩析声音而设置的音节判断器、语法执行器等需作相应的改变或加以取消。在特殊情况下可用具有固有频率的传感器(如振弦传感器)来同时完成对一般波的接收和频谱分离的任务。一般波也包括经过各种记录(包括数字形式记录)复原后的波。这样的语言计算机其处理的信息范围(工作对象)就更广了。
另一方面,可在原有基础上对语言计算机处理语言的功能进行强化和展拓。在语言计算机中实现这种对处理功能的强化和展拓的部件叫做语言处理器。强化和展拓的处理是指改错、翻译、改写、加密等。具体讲就是:
第一.对辩析能力的强化,这是在语音辩析的基础上进一步加强对字和词的编码(这种编码由语法范畴逐步过渡到信息范畴)从而将这种编码培育成一种介于自然语言和低级(机器)语言之间的“中间语言”并相应地完善其语法规则而实现的。中间语言的另一层含义是可以作为各种信息相互转译的基础(暂称这种语言为多多语言)有时不同的自然语言其多多语言(即它们在语言计算机中的编码)倒是很接近的。按编码及其语法的完善程度不同,强化的辩析能力分为:一、对发音错误的纠正,如对把“平凡”读成“频繁”(前后鼻韵读错)。这时可根据语法来判别出(形容词与程度副词的使用)错误,并通过寻找相近的拼音来找到合适的词;二、补上丢失的音节(词),如前句汉语例句中“有”字的拼音信息丢失,但已知其它的文字。这时可根据对其它文字编码的运算知成分三是个基调低的元素,成分六是个基调高的元素,因此要有一个肯定、递进性质的内容,这个内容由成分五担当,而成分四就应体现这种肯定递进的含义。又由于成分三和成分五之间的动词要求是一个具有联系性质的动词,据此可补上“有”字(对补上的字,需用记号标明以征求人的意见)。三、改正语言中的语法(和词汇)错误,辟如在那句汉语中读成“充满了活力”,由这里“显得”一词有进行和永久的意义,而“充满了”则有动作完成的意义可知不合语法逻辑。因此可用改错程序将“了”字去掉。当然这是在人的许可下做的。
第二、增加新的处理的功能、指机器翻译,机器摘要和机器改写。本发明在语音辩析基础上增加的对语言的处理功能是在对句子进行编码的基础上实现的。这种编码的具体形式和要求可由语言在处理过程中对各种信息的要求来确定,不妨设已实现了这种对句子的编码。由于语言计算机记忆力强所以对相当大一部分句子可以采用固定翻译法(通过存储这句外文句子的标准交换代码)来实现机器翻译。辟如对下面这句德
Vergessen mich nicht!Ich denke an dich.
语其最佳的中译文为:“勿忘我!我思念你。”这是第一种方法;第二种翻译法适用于有一定格式或可译成一定格式的外文的句子(如对下面这句英语
It is not easy to keep vegetables fresh in this season.
其中文意思是:“在这个季节里要保持蔬菜的新鲜可不是件容易的事。”这句英语的句型是一种使用广泛的双主语句型。编码时要记住它和相应外语的句型以及两者句子成分之间的对应关系。具体翻译时只要将与原来句子中具体的单词等价的外语单词填入由编码指示的译文句式中相应位置即可。对于更一般的句子可用这样的方法即先将文字按句子(成分)的内容和语法译成稍有差别的多句外语。然后将这些外语句子如数译成原文再选择一句与原文最接近或相等(指在由编码体现的形式和内容意义上的接近或相等)。当然也可设计出按两者(原文和初步译成的外文)的差异来指导机器进一步改译的翻译方案。机器翻译除了在自然语言之间进行,还可在自然语言与机器语言或其它信息(一般波)之间进行。这种翻译的基础是各种信息的内容和微小差别可被辩析出来并按其内容和形式上的规律对其进行不同层次的编码(相当于对语言进行文字、词汇、句子和文章的编码)。这就可实现人机对话以及进一步与其它的物体如动物、植物进行“对话”。辟如人向机器人(一种可移动位置、可输入命令的机械手)命令:“伙计!倒杯茶来。”机器人在理解这命令是向它发出的以及整条命令的内容并判断出有能力执行这命令时可回答:“遵命,我这就去端杯茶来。”以确定这种理解并将这命令分解为成千上万条简单的指令后去执行。
新增加的处理语言的功能还包括对文字进行改写,包括摘要和根据文章的回答问题。类似于将句子划分为句子成分用机器摘要要先对文章加以编码以区别文章的内容和形式(包括是否未定稿,原文以何种语言写成,关于那个学科,取什么样的体裁、有几段、多少字等)、各句或句组的特征,如属于陈述句?组成范例的抑或总结性的文字及其在文章中的地位。然后在机器摘要时可根据要求将有关句子整理而成。同样,在要求根据文章回答问题时就可以据此容易地找到句子或句子成份来进行。这种编码可以仅在计算机内部流通从而对操作者体现出透明性。
语言计算机除使用常规的记录方法和存储器外。还专门设计了一种多层存储器以适应上述的编码、语音辩析和文字处理的需要。这种多层存储器的特征是将属于同一语言学层次(字、词、句、段、篇)的各种内容分别存放在一个存储单元的固定的空间。实际上这是一种并行工作的存储器。辟如对汉字,可以设计一个专门的标准代码。放在存储单元的最前面,接着再依次存放这个字的24×24点阵字、对应的汉语拼音、语音合成以及这个字的语法和组词性质的代码。对于不同的处理,可以只有某些内容流通(自动随同标准代码进入有关存储空间)这可以简化指令形式,加快工作速度。
鉴于语言除取语音形式外还取文字形式,并且为了更好地辩识有时需要对现场情况的了解。作者将具有视觉功能的摄像器、特别是可以扫描运动的摄像器<1>和能辩别色彩的摄像器<2>引进语言计算机,这两种摄像机用于(包括用复眼的工作方式来)将物体的成像输入到语言计算机。可扫描运动的摄像器(体积如拇指大小)的优点是可以以较少的分辩点来扫描很大的场景并可跟踪移动的物体。它可以用来输入朗读者不会读的文字以及表格图像等。还有一种使用方法是:通过摄入人用手(或其它物体)在空中或在其它地方划的字(可以不留痕迹)来输入信息(这在开会时可以使有关成员不影响别人而方便地传播信息)。可辩别色彩的摄像器通过一种对光(颜色)进行频谱分析的方法来实现通过辩别色彩输入现场信息。这两者可以组合用以进行唇读。其原理是:通过跟踪说话者和对说话者嘴唇等图像(颜色)的摄取来记录说话者的嘴唇形态,这图像经边缘增强效应变成曲线再转换成标准曲线,机器通过对这些曲线的辩识就可找到与这些口型相应的音节以此来辩析说话的内容。这种通过对嘴唇形态的记录来辩析说话内容的装置就叫做唇读辩析装置<3>。这也是一种有效的输入信息的装置。此外它可以在机器自动译制影视片时自动选择与口型一致的词和句子。它还能用于国际性会议、自动翻译(不同语言)电话和机器译制影视片的过程中摄取讲话者的表情(如快乐、忧伤、手势)等有关信息。并在语音合成和组成句子时加入这种表情从而使这些讲话者的声音听起来更生动或者使译成的文字更为贴切。这种可摄取讲话者表情并从中取得讲话者语气信息的装置叫做语气综合器<4>。引入摄像器这种输入工具的语言计算机可进一步扩大计算机辩析和处理信息的范围、提高工作效率。
提高语言计算机输入效率的另一个方法是采用一种分离式键盘<5>。它可以用作语音输入装置的辅助输入工具。其特征是:分离式键盘在使用时的位置对于语言计算机的其它部分(称为主体)可以变动,并可用改变键盘状态的方法来输入信息。这个分离式键盘按其与主体的联系的方式可分为有线式和无线式。有线(电线或光缆)式具有保密性强和对环境干扰少的优点,无线式可用电磁波或超声波作载体来沟通键盘与主体的信息联系,从而使人在输入时具有更多的行动自由。(尤其是在大屏幕显示的情况下)。并可实现多台主体机用一个分离式键盘(这键盘也可附带话筒)。这种分离式键盘也可用于起到打开语言计算机(主体)的钥匙的作用。它可以制成钢笔形状。它的键可以采用动态隐形键。所谓动态是指键的功能可随时由用户自行设定(设定后键的功能就可以用液晶加以显示),所谓隐形是指键可以分辩不出来但可由液晶显示符加以区别各键的位置,除了用键来输入信息。分离式键盘还可用改变其状态的方法来输入信息和进行版面删改。辟如用键在空中(适当地)划一个逗号,就可以在屏上光标指示处输入一个逗号,将键水平放置就可由光标对页面进行行扫描等。这种键盘的状态的改变可以由键盘内的重力,速度、加速度传感器来加以检测。
处理语言的计算机的一个重要课题是提高文字的输出效率。为此可以在语言计算机中引入多种字体笔划设计器<6>它能由功能模块来产生各种字体,尤其是各种汉字体的打印编码。除了使用其它的输出设备以及用于制造各种语音打字机、办公室文字处理计算机、各种声控自动化设备以及各种家用和工业机器人外,本发明还可以用一种可编码印刷模版和一种可编码印刷滚筒<7>来高效率地进行制版和印刷。
语音输入普及势必对语言的发展和人们使用语言的习惯产生影响。对此,本发明将鼓励人们使用更规范的语言,并时刻提醒人们不致因使用语音输入而导致书写能力的衰退。另外,作者(即本发明提出者)建议在汉语使用中正式引进重音符号。因为这有助于对句子有一致的理解。例:对下面这句话:
我知道你很会演戏! 引自《话剧语言训练》
重音放在不同的词上,可表达五种不同的意义。
图7和图8给出了一个实施例,一台袖珍汉语语音打字机。它可以实现机器听写。图7是其主视图,图8是俯视图。参考尺寸为265×195×35(毫米3)。由话筒柄(6)托起话筒(5)。这话筒和用于视听反馈的扬声器制在一起,并可以拿在手里使用。修改屏(7)除了可显示摄像器(13)所摄内容并对其加以修改外,与显示屏(为示意结构清楚,图8中将显示屏变成透明的了)的作用一样用于显示机器辩析的内容,撑架(9)托起显示屏框架(8)以扩大视角。动态多功能显示键(10)设置了一组用于科学计算的键,机器询问显示屏(11)用于显示机器的询问。辩析的最后结果可由打字机(14)打印在纸张(12)上。摄像器(13)用于(扫描)摄入印刷文字。通过透明的显示屏(工作时不透明)可看见磁介质记录输入设备(15)、电源(16)、接口插件(17)、压电滤波器阵列(18)和由用压电材料制造的泵阀(其体积极小)组成的冷却系统(21)(用于集成电路(19)的冷却);特性曲线和模拟指针式特性显示屏(22)以曲线形式和模拟的摆动指针式电表的形式显示若干不同内容的机器特性或有关工作对象的内容(如所剩的存储空间和供电时间噪声干扰的程度等)。多功能显示键(10)所在的板面用铰链与机壳(20)相联;话筒孔(23)可按放话筒(5);该装置不用时可闭合以便于携带。
鉴于在语音辩析和处理语言中,语气和语调等信息是前后呼应的,而串行工作的电路不适于处理在时间上前后牵制的信息,另一方面,由于要不时地根据情况调整工作方向,即当发现工作进入歧途时要整个退出来,并行电路也不很适应这种情况。因此,作者设计出一种所谓“螺旋行”电路,即这种电路并不一下求出答案而是根据已得信息来产生更多的信息,并且分别从新的角度(如从语气、语调和语法的角度)寻求答案,这样在求解目标函数时就不是直接前进,而是有进有退,螺旋式前进。
图9是实现汉语拼音到文字、视听反馈器中语音合成、文字和图像辩析以及产生打印字编码等的功能部分的语言计算机框图。控制总线(25)的数据总线(24)将机器各部分相联接。这个框图中它的语法执行器分成三个小部分,以强调它是按螺旋行工作即从不同角度,逐渐求得答案以适合语音辩析和处理语言的工作要求。第二轮处理是指根据需要对已存的辩析内容再次处理。
实施例2是制造用于编撰各种动物如鸟、海豚等的语言词典以及植物对外界的反应性生物波词典的语言计算机。
语言计算机的实施例3是制造各种不同的状态检测器。如机器运行状态检测器(通过对机器运转声的分析),使用心磁图等工具的人体生理状态的检测器。通过害虫发出的声响来检测仓库中物品遭受虫害的虫害状态检测器等。这些检测器可用人的语言交流信息。
语言计算机的实施例4是制造将各种古典文献用现代语言进行小批量复制、整理、加注标点和摘要以及翻译外文资料的机器。
语言计算机的实施例5是制造一种用于旅游地区的能(通过无线电呼叫)听懂各种语言、外形取飞禽走兽状的会走或飞的无人售货机。用于在整个旅游区向旅游者提供各种服务。
注:<1>至<7>等处所涉技术另行披露-作者
Claims (10)
1、一种用频谱分析法的声音辩析方案。其特征是:
A.方案利用滤波器阵列来对声波进行频谱分解。
B.方案利用信息估计器来模拟辩析对象中各类有规律的其它信号。
C.方案利用低频定位法来确定同步时刻(插值时刻)以指导函数插值运算器阵列来对信号进行清洗和同步。
使用上述辩析方案的能识别可用电波形式来表达的物理量、特别是识别声音,并能将所识别的内容加以记录、处理和输出的装置,这装置也就是通常讲的人工智能计算机,内部含有各种处理器、存储器、输出输入设备,其特征是:
a)装置内含有频谱分量采样器和幅相值求取器。
b)装置内含有译码比较器。
2、如权利要求1所述的装置。其特征是:装置内含有用压电材料制成的滤波器阵列,用于对一般波形进行频谱分解。
3、如权利要求1和权利要求2所述的装置。其特征是:装置内含有信息估计器。用于模拟辩析对象中各类有规律的其它信号。
4、如权利要求1、权利要求2、权利要求3所述的装置。其特征是:装置内含有函数插值运算器、尤其是应用低频定位法来确定插值时刻的函数插值运算器,用以对采样信号进行清洗和同步。
5、如权利要求1、权利要求2、权利要求3和权利要求4所述的装置。其特征是:装置内含有音节判断器,用于获得音节的起始和结束时刻。
6、如权利要求1、权利要求2、权利要求3、权利要求4和权利要求5所述的装置。其特征是:装置内含有语法执行器。
7、如权利要求1、权利要求2、权利要求3、权利要求4、权利要求5和权利要求6所述的装置。其特征是:装置内含有语言处理器,用于对文字进行翻译、摘要、改写等处理。
8、如权利要求1、权利要求2、权利要求3、权利要求4、权利要求5、权利要求6和权利要求7所述的装置。其特征是:
A.装置内含有可扫描运动的摄像器和可辨别色彩的摄像器。
B.装置内含有唇读辩析装置和语气综合器。
9、如权利要求1、权利要求2、权利要求3、权利要求4、权利要求5、权利要求6、权利要求7和权利要求8所述的装置。其特征是:装置内含有多种字体笔划设计器、可编码印刷模版和可编码印刷滚筒。
10、如权利要求1、权利要求2、权利要求3、权利要求4、权利要求5、权利要求6、权利要求7、权利要求8和权利要求9所述的装置。其特征是:作为辅助输入工具的分离式键盘的位置对于装置其它部分可以变动,并可用改变这键盘状态的方法来输入信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 86101508 CN86101508A (zh) | 1986-06-28 | 1986-06-28 | 语言计算机 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 86101508 CN86101508A (zh) | 1986-06-28 | 1986-06-28 | 语言计算机 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN86101508A true CN86101508A (zh) | 1988-01-06 |
Family
ID=4801414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 86101508 Pending CN86101508A (zh) | 1986-06-28 | 1986-06-28 | 语言计算机 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN86101508A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102231278A (zh) * | 2011-06-10 | 2011-11-02 | 安徽科大讯飞信息科技股份有限公司 | 实现语音识别中自动添加标点符号的方法及系统 |
CN101171586B (zh) * | 2005-02-18 | 2012-12-12 | 岛津研究所(欧洲)有限公司 | 用于选择质谱母离子的方法和系统 |
CN103761064A (zh) * | 2013-12-27 | 2014-04-30 | 圆展科技股份有限公司 | 自动语音输入系统及其方法 |
CN108349091A (zh) * | 2015-11-16 | 2018-07-31 | 川崎重工业株式会社 | 机器人系统及机器人系统的控制方法 |
-
1986
- 1986-06-28 CN CN 86101508 patent/CN86101508A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101171586B (zh) * | 2005-02-18 | 2012-12-12 | 岛津研究所(欧洲)有限公司 | 用于选择质谱母离子的方法和系统 |
CN102231278A (zh) * | 2011-06-10 | 2011-11-02 | 安徽科大讯飞信息科技股份有限公司 | 实现语音识别中自动添加标点符号的方法及系统 |
CN102231278B (zh) * | 2011-06-10 | 2013-08-21 | 安徽科大讯飞信息科技股份有限公司 | 实现语音识别中自动添加标点符号的方法及系统 |
CN103761064A (zh) * | 2013-12-27 | 2014-04-30 | 圆展科技股份有限公司 | 自动语音输入系统及其方法 |
CN108349091A (zh) * | 2015-11-16 | 2018-07-31 | 川崎重工业株式会社 | 机器人系统及机器人系统的控制方法 |
CN108349091B (zh) * | 2015-11-16 | 2021-03-26 | 川崎重工业株式会社 | 机器人系统及机器人系统的控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Schultz et al. | Multilingual speech processing | |
Church | Phonological parsing in speech recognition | |
CN110675854B (zh) | 一种中英文混合语音识别方法及装置 | |
Reddy | Speech recognition: invited papers presented at the 1974 IEEE symposium | |
CN100568225C (zh) | 文本中数字和特殊符号串的文字符号化处理方法及系统 | |
CN110134968A (zh) | 基于深度学习的诗歌生成方法、装置、设备及存储介质 | |
JP2007087397A (ja) | 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法 | |
CN108304387B (zh) | 文本中噪音词的识别方法、装置、服务器组及存储介质 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
Wang | Grammar inference and statistical machine translation | |
CN111428104A (zh) | 基于观点型阅读理解的癫痫病辅助医疗智能问答方法 | |
CN109102723A (zh) | 一种基于字母中文的交互式教学系统及实现其方法 | |
Lee | Reading machine: From text to speech | |
CN86101508A (zh) | 语言计算机 | |
CN115688799A (zh) | 一种汉语自监督词义理解方法及系统 | |
Mekki et al. | COTA 2.0: An automatic corrector of Tunisian Arabic social media texts | |
CN1127898A (zh) | 智慧型国语语音输入方法及国语听写机 | |
CN109446537B (zh) | 一种针对机器翻译的译文评估方法及装置 | |
CN113627191A (zh) | 一种气象预警样本语义自动化标注方法及系统 | |
Li et al. | Intelligent braille conversion system of Chinese characters based on Markov model | |
JP2018010481A (ja) | 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム | |
Keenan | Large vocabulary syntactic analysis for text recognition | |
Tsai et al. | Applying an NVEF Word-Pair Identifier to the Chinese Syllable-to-Word Conversion Problem | |
CN104731832A (zh) | 藏语拉萨话声调预测的方法及系统 | |
Abdelkader et al. | How Existing NLP Tools of Arabic Language Can Serve Hadith Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |