CN103474081A - 文字显示方法与处理装置以及计算机程序产品 - Google Patents

文字显示方法与处理装置以及计算机程序产品 Download PDF

Info

Publication number
CN103474081A
CN103474081A CN2012102165014A CN201210216501A CN103474081A CN 103474081 A CN103474081 A CN 103474081A CN 2012102165014 A CN2012102165014 A CN 2012102165014A CN 201210216501 A CN201210216501 A CN 201210216501A CN 103474081 A CN103474081 A CN 103474081A
Authority
CN
China
Prior art keywords
word
words
voice signal
time
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012102165014A
Other languages
English (en)
Inventor
黄宇辰
林哲光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quanta Computer Inc
Original Assignee
Quanta Computer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quanta Computer Inc filed Critical Quanta Computer Inc
Publication of CN103474081A publication Critical patent/CN103474081A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72436User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for text messaging, e.g. SMS or e-mail
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

一种文字显示方法,包括:接收一语音信号;撷取该语音信号的基频轨迹;撷取该语音信号的能量轨迹;对该语音信号进行语音识别以识别出对应该语音信号的多个字并判断每个该等字的时间对齐信息;根据该能量轨迹、该基频轨迹以及该等时间对齐信息决定每个该等字的至少一文字显示参数;根据每个该等字的该至少一文字显示参数将该等字整合为一字句;以及输出该字句以使该字句显示于一显示装置。

Description

文字显示方法与处理装置以及计算机程序产品
技术领域
本发明是有关于语音输入,且特别有关于基于语音输入的文字显示技术。
背景技术
在以声音沟通或是面对面沟通时,可以根据对方说话时的音调、音量、速度和隐含的情绪等协助理解对方所要表达的意思。但在传送短消息、电子邮件以及利用例如Microsoft Windows Messenger等IM(instant message)通讯程序进行纯文字沟通时,由于文字无法呈现讲话者的音调、音量与速度等特性,对方仅能理解文字本身而无法同时理解讲话者说话时的音调、音量、速度和情绪。
发明内容
有鉴于此,本发明提供一种文字显示方法,其根据所输入的语音的各项特征以及使用者的表情检测调整文字显示方式,以反应使用者说话时的音调、音量、速度和情绪。
本发明一实施例提供一种文字显示方法,包括:接收一语音信号;撷取该语音信号的基频轨迹;撷取该语音信号的能量轨迹;对该语音信号进行语音识别以识别出对应该语音信号的多个字并判断每个该等字的时间对齐信息;根据该能量轨迹、该基频轨迹以及该等时间对齐信息决定每个该等字的至少一文字显示参数;根据每个该等字的该至少一文字显示参数,将该等字整合为一字句;以及输出该字句以使该字句显示于至少一显示装置。
本发明另一实施例提供一种处理装置,包括:一语音输入单元,接收一语音信号;一处理器,包括:一音高撷取模块,撷取该语音信号的基频轨迹;一能量计算模块,撷取该语音信号的能量轨迹;一语音识别引擎,对该语音信号进行语音识别以识别出对应该语音信号的多个字并判断每个该等字的时间对齐信息;以及一文字处理模块,根据该能量轨迹、该基频轨迹以及该等时间对齐信息决定每个该等字的至少一文字显示参数,并根据每个该等字的该至少一文字显示参数将该等字整合为一字句;以及一文字输出单元,输出该字句以使至少一显示装置显示该字句。
本发明再一实施例提供一种计算机程序产品,储存于一计算机可读取媒体,用以被一电子装置加载以执行一文字显示方法,其中该计算机程序产品包括:一第一程序码,用以接收一语音信号;一第二程序码,用以撷取该语音信号的基频轨迹;一第三程序码,用以撷取该语音信号的能量轨迹;一第四程序码,用以对该语音信号进行语音识别以识别出对应该语音信号的多个字并判断每个该等字的时间对齐信息;一第五程序码,用以根据该能量轨迹、该基频轨迹以及该等时间对齐信息决定每个该等字的至少一文字显示参数;以及一第六程序码,用以根据每个该等字的该至少一文字显示参数将该等字整合为一字句,并输出该字句以使该字句显示于至少一显示装置。
附图说明
图1所示为依据本发明一实施例的文字显示方法的流程图;
图2所示为依据图1的实施例的语音信号处理示意图;
图3a至3d所示为依据图1的实施例的文字显示的例子;
图4所示为依据本发明一实施例的文字显示方法的流程图;
图5所示为依据本发明一实施例的处理装置的示意图。
[主要元件标号说明]
200~语音信号;        210~基频轨迹;
220~能量轨迹;        230~语音识别结果;
50~处理装置;         510~语音输入单元;
520~处理器;          521~音高撷取模块;
522~梅尔倒频谱模块;  523~能量计算模块;
524~语音识别引擎;    525~脸部识别模块;
526~人脸特征撷取模块;527~表情参数模块;
528~文字处理模块;    530~图像输入单元;
540~文字输出单元;    s1、s2、s3、s4~斜率;
S100、S102、S104、…、S118、S400、S402、S404、…、S420~步骤;
t1、t2、t3、t4、T1、T2、T3、T4、T5、T6、T7~时间点;
U~面积;。
具体实施方式
以下说明为本发明的实施例。其目的是要举例说明本发明一般性的原则,不应视为本发明的限制,本发明的范围当以申请专利范围所界定者为准。
图1所示为依据本发明一实施例的文字显示方法的流程图。在步骤S100中,接收一语音信号,例如通过麦克风接收并录制使用者输入的语音信号。在步骤S102中,对语音信号进行基本语音处理,例如进行去除噪声、数字化等,以供后续步骤分析与运算。以图2为例,语音信号200代表所接收的语音信号经过数字化的声波波形,其中横轴为时间,纵轴为振幅。
在步骤S104中,对语音信号200进行音高追踪(Pitch Tracking)以撷取该语音信号的基频轨迹(Pitch Contour),如图2中的基频轨迹210。基频轨迹210的横轴为时间,纵轴为频率,频率的单位为赫兹(Hz)。基频轨迹210记录语音信号200对应时间轴的基本频率(Fundamental Frequency),即所谓音高。
在步骤S106中,撷取语音信号200的梅尔倒频谱系数(Mel-scaleFrequency Cepstral Coefficients,MFCC)。在此例子中,对语音信号200撷取39维的梅尔倒频谱系数C0~C38。
接着在步骤S108中,根据梅尔倒频谱系数C0~C38中的低频梅尔倒频谱系数C0计算语音信号200的能量以得到语音信号200的能量轨迹,如图2中的能量轨迹220。梅尔倒频谱系数C0是代表语音信号200的功率的函数。能量轨迹220的横轴为时间,纵轴为能量。能量轨迹220记录语音信号200对应时间轴的能量,即所谓音量。
在步骤S110中,根据梅尔倒频谱系数C0~C38对语音信号200进行语音识别(Speech Recognition)以识别出语音信号200对应的字并判断每个字的时间对齐信息(Time Alignment Information)。语音识别包括识别语音信号200哪些区段为噪音,例如图2中时间点T1之前的语音信号200。
语音识别还包括根据语音信号200的梅尔倒频谱系数C0~C38等特征值(Feature)与参考语音模型(例如声学模型和语言模型)作图像识别(PatternRecognition),以得到语音识别结果,语音识别结果可为一单字、多个单字或/和由多个单字所构成的句子,如图2中的语音识别结果230。以图2为例,经语音识别后,语音信号200的语音识别结果230由「million」、「times」、「it’s」、「from」、「Mary’s」以及「mother」的单字所组成。语音识别还包括判断语音识别结果230的每个字的时间对齐信息,也就是判断语音识别结果230的每个字的起始时间和结束时间以及每个字对应至语音信号200的区段和时间长短为何。以图2为例,时间点T2、T3、T4、T5、T6和T7即时间对齐信息,分别为「million」、「times」、「it’s」、「from」、「Mary’s」和「mother」的结束时间。在图2的例子中,每个字以前一个字的结束时间为自己的起始时间,例如「from」前一个字「it’s」的结束时间为T4,所以「times」的起始时间为T4,因此语音信号200、基频轨迹210和能量轨迹220在时间点T4到T5之间的区段是对应至「from」,而时间点T4到T5之间的时间差代表「from」在语音信号200中的时间长短。须注意的是,「million」是以噪音的结束时间点T1为起始时间。
经过步骤S102至S110,得到语音信号200的基频轨迹210、能量轨迹220、语音识别结果230以及语音识别结果230的每个字的时间对齐信息,其中时间对齐信息包括每个字的起始时间和结束时间。接着在步骤S112中,根据基频轨迹210、能量轨迹220以及语音识别结果230的每个字的时间对齐信息决定语音识别结果230的每个字的文字显示参数。文字显示参数至少包括位置参数、字体大小参数、以及距离参数。位置参数代表每个字在显示时的垂直位置,字体大小参数代表每个字的字体大小,距离参数代表每个字与前一个字之间的距离。文字显示参数还可包括文字颜色参数、文字字体参数等与显示文字相关的参数。
在步骤S114中,根据基频轨迹210、能量轨迹220以及语音识别结果230的每个字的时间对齐信息决定表情符号。于一具体实施例中,表情符号亦属于文字显示参数。
在步骤S116中,根据语音识别结果230、语音识别结果230的每个字的文字显示参数以及步骤S114所决定的表情符号,将语音识别结果230的每个字与表情符号整合为一字句,在步骤S118中,输出该字句并将该字句显示于至少一显示装置。
举例而言,当使用者A利用语音输入模块与其它使用者进行文字沟通时,使用者A对着麦克风输入一语音信号,语音输入模块撷取该语音信号,如图1的步骤S100所示,然后语音输入模块对语音信号进行如图1步骤S100至S112的处理后,得到语音识别结果以及语音识别结果的每个字的文字显示参数,然后语音输入模块根据语音识别结果以及语音识别结果的每个字的文字显示参数将语音识别结果的每个字整合为一字句,并输出该字句以显示于使用者A以及其它与使用者A聊天的使用者的显示屏幕上。于一具体实施例中,语音输入模块可以程序实现,此程序可被一处理器所读取并执行图1的步骤。于一具体实施例中,语音输入模块亦可由硬件直接实现,如专用集成电路(Application-specific integrated circuit),以加速执行的速度。
图3a至3d为根据图1的流程所得到的文字显示的例子。以下配合图3a至3c说明如何根据基频轨迹、能量轨迹以及语音识别结果的每个字的时间对齐信息决定语音识别结果的每个字的文字显示参数。
图3a所示为根据时间对齐信息决定距离参数的一个例子。在此例子中,根据语音识别结果的每个字的结束时间和前一个字的结束时间之间的时间长短决定距离参数。举例而言,由于「can’t」的结束时间与「I」的结束时间之间的时间差D1比「I」的结束时间与「and」的结束时间之间的时间差D2小,因此「can’t」与「I」之间的距离比「I」与「and」之间的距离小。一个字的距离参数可以设定为正比于该字的结束时间与前一个字的结束时间之间的时间差。除此之外,也可直接根据每个字的起始时间决定每个字的距离参数。通过根据时间对齐信息决定距离参数,本发明可以根据每个字出现的时间安排各字之间的间距,并通过显示各字之间间距的不同呈现原说话者说话时的节奏。
图3b所示为根据能量轨迹决定字体大小参数的一个例子。在此例子中,首先计算每个字的平均能量。一个字的总能量为能量轨迹在该字的起始时间与结束时间之间的图形下面积,而该字的平均能量则为该总能量除以该字的起始时间与结束时间之间的时间差。以图2为例,「million」的平均能量=面积U/(T2-T1)。每个字的字体大小参数可以设定为正比于其平均能量,平均能量越大则字体大小参数越大,也就是字体大小越大。另外,也可设定一平均能量预设值,若一个字的平均能量超过平均能量预设值,则该字的字体大小参数设定为第一值,若一个字的平均能量未超过平均能量预设值,则该字的字体大小参数设定为第二值,其中第一值大于第二值,也就是第一值对应的字体大小大于第二值对应的字体大小。如图3b所示,由于「believe」和「it」的平均能量超过平均能量预设值,因此「believe」和「it」的字体较他字大。本发明并不局限于一次仅计算一个字的平均能量,也可以以复字词、子句或整个句子为计算单位计算其平均能量以调整复字词、子句或整个句子的字体大小,例如一个句子的平均能量则为该句子的总能量除以该句子的时间长短,而该句子的总能量为能量轨迹在该句子的起始时间与结束时间之间的图形下面积。
图3c所示为根据基频轨迹决定位置参数。在此例子中,首先计算基频轨迹在每个字的起始时间与该结束时间之间多个时间点上的斜率值,然后再计算这些斜率值的回归直线(Linear Regression),并根据此回归直线的斜率决定每个字的位置参数。位置参数代表每个字的垂直位置,在此例子中,位置参数代表每个字显示时的斜率。
以图2为例,对于「times」这个字,在其起始时间T2和结束时间T3之间的四个时间点t1、t2、t3和t4上取四个基频轨迹的斜率值s1、s2、s3和s4。接着利用回归分析(Regression Analysis)和曲线拟合(Curve Fitting)对(t1,s1)、(t2,s2)、(t3,s3)和(t4,s4)进行简单线性回归以计算其回归直线即其斜率,然后根据回归直线的斜率决定「times」的位置参数(显示时的斜率)。
于一具体实施例中,每个字显示时的斜率可设定为该字的回归曲线的斜率。于一具体实施例中,可以将所有字的回归曲线的斜率映射至一区间,使每一个斜率对应至一个值,然后将每个字的位置参数设定为回归曲线的斜率所对应的值,使每个字显示时的斜率等于该值。
通过回归直线的斜率可以得知每个字的基频变化趋势,因此根据回归直线的斜率决定每个字的位置参数可以使显示的字呈现其基频变化趋势,以使观看者感觉到讲话者在讲个个字时是音调渐高或渐低,也就是说,每个字的音高趋势可通过回归直线的斜率表现。以上叙述虽是根据每个字的回归直线的斜率决定每个字的位置参数,但本发明并不限定于一个字一个字地计算其位置参数,也可以两个字以上一起计算其回归直线的斜率然后一起决定两个字以上的位置参数。以图3c为例,先计算基频轨迹在「so amazing」的时间区段内的多个时间点上的斜率值,然后计算该等斜率值的回归直线,计算此回归直线的斜率,假设为s5,然后根据回归直线的斜率s5设定「so amazing」的位置参数使「so amazing」显示时的斜率等于s5或等于s5所对应的一个值。从图3c中可以得知「so amazing」的基频变化趋势为上升。
于一具体实施例中,时间点的数量并不限定于4个,其可视实际需求而决定,若要精准地反应讲话者的情绪,则可设定较多的时间的的数量,若强调处理效率以实时显示字句,则可设定较小的时间点的数量。
以下配合图3d说明如何如图1的步骤S114所示根据基频轨迹、能量轨迹以及语音识别结果的每个字的时间对齐信息决定表情符号。
图3d所示为根据基频轨迹和能量轨迹以及时间对齐信息决定表情符号的例子。须注意的是,在本说明书中,表情符号可包括标点符号,例如惊叹号和问号等,另外也可包括一般的表情符号,例如笑脸等。当讲话者讲话时情绪剧烈变化时,其语音的基频轨迹和能量轨迹会有对应的变化,因此本发明根据至少一字的平均能量以及音高趋势决定是否要插入表情符号,若要插入表情符号,更进一步根据每个字的平均能量以及音高趋势决定要插入哪种表情符号。举例而言,假设在一识别结果中某个子句的平均能量超过一平均能量预设值且该子句的回归直线的斜率高于一斜率预设值,则决定在邻近该子句的一个位置上,例如该子句的后面,插入一表情符号。以图3d为例,子句「I can’t believe it」的平均能量超过一平均能量预设值且其回归直线的斜率高于一斜率预设值,因此在「I can’t believe it」后方加上「!!!」的表情符号。在本发明中,可以根据平均能量与音高趋势的不同组合决定要插入什么表情符号。举例而言,当平均能量大于一第一预设值且回归直线的斜率大于一第二预设值时,其对应的表情符号为「!!!」,而当平均能量小于一第三预设值且回归直线的斜率小于一第四预设值时,其对应的表情符号为「…」。
图4为依据本发明另一实施例的文字显示方法的流程图。其中步骤S400至S412与图1的步骤S100至S112,因此不再复述。
图4的流程图与图1的流程图最大的差别在于图4的流程图除了在步骤S414中根据基频轨迹、能量轨迹以及语音识别结果的每个字的时间对齐信息决定第一表情符号,还增加了步骤S416来决定第二表情符号。在步骤S416中,根据脸部识别判断表情强度,并根据表情强度决定是否插入至少一第二表情符号于字句中。举例而言,本发明通过一摄影机拍摄输入该语音信号的使用者的图像,并对该图像进行脸部检测以撷取使用者输入语音信号时的脸部图像,然后根据脸部图像撷取人脸特征,例如眼角特征点、嘴巴特征点等,然后根据人脸特征判断表情强度,再根据表情强度决定是否插入至少一第二表情符号于字句中。
以计算表情强度中的微笑强度为例,首先利用人脸检测器,例如Viola-Jones式人脸检测器(Viola-Jones Type Face Detector)或是基于SVM(Support Vector Machine)的人脸检测器对图像进行脸部检测以撷取脸部图像,对脸部图像进行标准化(Normalize)以供后续运算,然后撷取脸部图像的人脸特征,例如局部强度直方图(Local Intensity Histogram,LIH)、中心对称局部二进制图案(Center-Symmetric Local Binary Pattern,CS-LBP)或与LIH和CS-LBP相关的特征。接着根据人脸特征估算微笑强度,例如通过LIH、CS-LBP或与LIH和CS-LBP相关的特征训练SVM以供微笑检测,然后利用串行SVM(Cascaded SVM)计算微笑强度。当微笑强度高于一预设值时,则在字句中插入一个微笑的表情符号。
接着在步骤S418中,根据语音识别结果、语音识别结果的每个字的文字显示参数以及步骤S414和S416所决定的表情符号,将语音识别结果与表情符号整合为一字句。在步骤S420中,输出该字句并将该字句显示于至少一显示装置。
于一具体实施例中,步骤S414亦可同时根据表情强度而决定第一表情符号,亦即根据基频轨迹、能量轨迹、语音识别结果的每个字的时间对齐信息以及表情强度决定第一表情符号而不再显示第二表情符号。于一具体实施例中,步骤S414仅根据表情强度决定第一表情符号,步骤S416根据基频轨迹、能量轨迹、语音识别结果的每个字的时间对齐信息决定第二表情符号。
图5所示为依据本发明一实施例的处理装置50的示意图。处理装置50包括语音输入单元510、处理器520、图像输入单元530以及文字输出单元540。语音输入单元510用以通过一麦克风等接收一语音信号。图像输入单元530通过一摄影机接收一图像信号。处理器520为具有语音处理以及图像处理的处理器(Processor),包括音高撷取模块521、梅尔倒频谱模块522、能量计算模块523、语音识别引擎524、脸部识别模块525、人脸特征撷取模块526、表情参数模块527以及文字处理模块528。音高撷取模块撷取语音信号的基频轨迹,例如图2的基频轨迹210。梅尔倒频谱模块撷取语音信号的多个梅尔倒频谱系数,例如梅尔倒频谱系数C0~C38。能量计算模块523撷取语音信号的能量轨迹,例如能量轨迹220。语音识别引擎524对语音信号进行语音识别以识别出对应语音信号的多个字,例如语音识别结果230,并判断每个字的时间对齐信息,例如时间点T1~T7。脸部识别模块525对图像输入单元所接收的图像信号进行脸部识别以撷取使用者输入语音信号时的脸部图像。人脸特征撷取模块526撷取脸部图像的人脸特征,例如LIH、CS-LBP或与LIH和CS-LBP相关的特征。表情参数模块527根据判断一表情强度,例如微笑强度。文字处理模块528根据能量轨迹、基频轨迹以及时间对齐信息决定每个字的多个文字显示参数,例如根据每个字的结束时间与前一个字的结束时间之间的时间长短决定每个字的距离参数、根据平均能量决定每个字的字体大小参数以及根据回归直线的斜率决定每个字的位置参数。文字处理模块528也根据平均能量以及回归直线的斜率决定是否要插入表情符号以及插入何种表情符号。文字处理模块528还根据表情强度决定是否插入对应该表情强度的表情符号于字句中。最后,文字处理模块528根据语音识别结果、所有文字显示参数以及所有表情符号将语音识别结果与表情符号整合为一字句并传送至文字输出单元540。文字输出单元540输出该字句以使至少一显示装置显示该字句。
本发明的方法、模块,或特定型态或其部分,可以以程序码的型态存在。程序码可以包含于物理媒体,如软盘、光盘片、硬盘、或是任何其它电子设备或机器可读取(如计算机可读取)储存媒体,亦或不限于外在形式的计算机程序产品,其中,当程序码被机器,如计算机加载且执行时,此机器变成用以参与本发明的装置或系统,且可执行本发明的方法步骤。程序码也可以通过一些传送媒体,如电线或电缆、光纤、或是任何传输型态进行传送,其中,当程序码被电子设备或机器,如计算机接收、加载且执行时,此机器变成用以参与本发明的系统或装置。当在一般用途处理单元实作时,程序码结合处理单元提供一操作类似于应用特定逻辑电路的独特装置。
在一实施例中,本发明提供一种计算机程序产品,储存于一实体计算机可读取媒体中,例如软盘、光盘片、硬盘等,该实体计算机可读取媒体用以被例如计算机、处理器等的电子装置加载以执行一文字显示方法,其中该计算机程序产品包括:一第一程序码,用以接收一语音信号;一第二程序码,用以撷取该语音信号的基频轨迹;一第三程序码,用以撷取该语音信号的能量轨迹;一第四程序码,用以对该语音信号进行语音识别以识别出对应该语音信号的多个字并判断每个该等字的时间对齐信息;一第五程序码,用以根据该能量轨迹、该基频轨迹以及该等时间对齐信息决定每个该等字的多个文字显示参数;以及一第六程序码,用以根据每个该等字的该等文字显示参数将该等字整合为一字句,并输出该字句以使该字句显示于至少一显示装置。该计算机程序产品还包括:一第七程序码,用以通过一网络摄影机对输入该语音信号的使用者进行脸部检测以撷取该使用者输入该语音信号时的脸部图像;一第八程序码,用以根据该脸部图像判断一表情强度;以及一第九程序码,根据该表情强度决定是否插入至少一第一表情符号于该字句中。
以上所述为实施例的概述特征。所属技术领域中具有通常知识者应可以轻而易举地利用本发明为基础设计或调整以实行相同的目的和/或达成此处介绍的实施例的相同优点。所属技术领域中具有通常知识者也应了解相同的配置不应背离本发明的精神与范围,在不背离本发明的精神与范围下他们可做出各种改变、取代和交替。说明性的方法仅表示示范性的步骤,但这些步骤并不一定要以所表示的顺序执行。可另外加入、取代、改变顺序和/或消除步骤以视情况而作调整,并与所揭露的实施例精神和范围一致。

Claims (20)

1.一种文字显示方法,包括:
接收一语音信号;
撷取该语音信号的基频轨迹;
撷取该语音信号的能量轨迹;
对该语音信号进行语音识别以识别出对应该语音信号的多个字并判断每个该等字的时间对齐信息;
根据该能量轨迹、该基频轨迹以及该等时间对齐信息决定每个该等字的至少一文字显示参数;
根据每个该等字的该至少一文字显示参数,将该等字整合为一字句;以及
输出该字句以使该字句显示于至少一显示装置。
2.根据权利要求1所述的文字显示方法,其中该至少一文字显示参数包括位置参数、字体大小参数、以及距离参数。
3.根据权利要求2所述的文字显示方法,还包括:
通过一摄影机撷取一脸部图像;
根据该脸部图像判断一表情强度;以及
根据该表情强度决定是否插入至少一第一表情符号于该字句中。
4.根据权利要求3所述的文字显示方法,还包括:
计算该语音信号的多个梅尔倒频谱系数;
根据该等梅尔倒频谱系数计算该语音信号的能量以得到该能量轨迹;以及
根据该等梅尔倒频谱系数对该语音信号进行语音识别以识别出该等字并判断每个该等字的该时间对齐信息。
5.根据权利要求4所述的文字显示方法,其中每个该等字的该时间对齐信息包括每个该等字在该语音信号中的起始时间以及结束时间。
6.根据权利要求5所述的文字显示方法,还包括:
根据每个该等字的该结束时间与前一个字的结束时间之间的时间长短决定每个该等字的该距离参数。
7.根据权利要求6所述的文字显示方法,还包括:
计算该能量轨迹在每个该等字的该起始时间与该结束时间之间的平均能量;以及
根据该平均能量决定每个该等字的字体大小参数。
8.根据权利要求7所述的文字显示方法,还包括:
计算该基频轨迹在每个该等字的该起始时间与该结束时间之间的回归直线;以及
根据该回归直线的斜率决定每个该等字的该位置参数。
9.根据权利要求8所述的文字显示方法,还包括:
根据该等字中至少一字的平均能量以及该至少一字的回归直线的斜率,决定是否在该字句中邻近该至少一字处插入至少一第二表情符号,若是,则根据该至少一字的该平均能量以及该至少一字的该回归直线的该斜率决定该至少一第二表情符号。
10.一种处理装置,包括:
一语音输入单元,接收一语音信号;
一处理器,包括:
一音高撷取模块,撷取该语音信号的基频轨迹;
一能量计算模块,撷取该语音信号的能量轨迹;
一语音识别引擎,对该语音信号进行语音识别以识别出对应该语音信号的多个字并判断每个该等字的时间对齐信息;以及
一文字处理模块,根据该能量轨迹、该基频轨迹以及该等时间对齐信息决定每个该等字的至少一文字显示参数,并根据每个该等字的该至少一文字显示参数将该等字整合为一字句;以及
一文字输出单元,输出该字句以使至少一显示装置显示该字句。
11.根据权利要求10所述的处理装置,其中该至少一文字显示参数至少包括位置参数、字体大小参数、以及距离参数。
12.根据权利要求11所述的处理装置,还包括:
一图像输入单元,用以撷取一图像,
其中该处理器还包括:
一脸部识别模块,对该图像进行脸部识别以撷取一脸部图像;
一人脸特征撷取模块,撷取该脸部图像的一人脸特征;以及
一表情参数模块,根据该人脸特征判断一表情强度,
其中该文字处理模块还根据该表情强度决定是否插入至少一第一表情符号于该字句中。
13.根据权利要求12所述的处理装置,其中该处理器还包括:
一梅尔倒频谱模块,撷取该语音信号的多个梅尔倒频谱系数,
其中该能量计算模块根据该等梅尔倒频谱系数计算该语音信号的能量以得到该能量轨迹,
其中该语音识别引擎根据该等梅尔倒频谱系数识别该等字并判断每个该等字的该时间对齐信息。
14.根据权利要求13所述的处理装置,其中每个该等字的该时间对齐信息包括每个该等字在该语音信号中的起始时间以及结束时间。
15.根据权利要求14所述的处理装置,其中该文字处理模块根据每个该等字的该结束时间与前一个字的结束时间之间的时间长短决定每个该等字的该距离参数。
16.根据权利要求15所述的处理装置,其中该文字处理模块计算该能量轨迹在每个该等字的该起始时间与该结束时间之间的平均能量,并根据该平均能量决定每个该等字的字体大小参数。
17.根据权利要求16所述的处理装置,其中该文字处理模块计算该基频轨迹在每个该等字的该起始时间与该结束时间之间的回归直线,并根据该回归直线的斜率决定每个该等字的该位置参数。
18.根据权利要求17所述的处理装置,其中该文字处理模块根据该等字中至少一字的平均能量以及该至少一字的回归直线的斜率,决定是否在该字句中邻近该至少一字处插入至少一第二表情符号,若是,则该文字处理模块根据该至少一字的该平均能量以及该至少一字的该回归直线的该斜率决定该至少一第二表情符号。
19.一种计算机程序产品,储存于一计算机可读取媒体,用以被一电子装置加载以执行一文字显示方法,其中该计算机程序产品包括:
一第一程序码,用以接收一语音信号;
一第二程序码,用以撷取该语音信号的基频轨迹;
一第三程序码,用以撷取该语音信号的能量轨迹;
一第四程序码,用以对该语音信号进行语音识别以识别出对应该语音信号的多个字并判断每个该等字的时间对齐信息;
一第五程序码,用以根据该能量轨迹、该基频轨迹以及该等时间对齐信息决定每个该等字的至少一文字显示参数;以及
一第六程序码,用以根据每个该等字的该至少一文字显示参数将该等字整合为一字句,并输出该字句以使该字句显示于至少一显示装置。
20.根据权利要求19所述的计算机程序产品,还包括:
一第七程序码,用以通过一摄影机撷取一脸部图像;
一第八程序码,用以根据该脸部图像判断一表情强度;以及
一第九程序码,根据该表情强度决定是否插入至少一第一表情符号于该字句中。
CN2012102165014A 2012-06-05 2012-06-27 文字显示方法与处理装置以及计算机程序产品 Pending CN103474081A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW101120062 2012-06-05
TW101120062A TWI484475B (zh) 2012-06-05 2012-06-05 文字顯示方法與語音轉文字裝置以及電腦程式產品

Publications (1)

Publication Number Publication Date
CN103474081A true CN103474081A (zh) 2013-12-25

Family

ID=49671321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012102165014A Pending CN103474081A (zh) 2012-06-05 2012-06-27 文字显示方法与处理装置以及计算机程序产品

Country Status (3)

Country Link
US (1) US8935165B2 (zh)
CN (1) CN103474081A (zh)
TW (1) TWI484475B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104240703A (zh) * 2014-08-21 2014-12-24 广州三星通信技术研究有限公司 语音信息处理方法和装置
CN105353957A (zh) * 2015-10-28 2016-02-24 深圳市金立通信设备有限公司 一种信息显示方法及终端
CN110488997A (zh) * 2019-07-03 2019-11-22 深圳市九洲电器有限公司 基于语音的书写板实现方法及相关产品
CN111356010A (zh) * 2020-04-01 2020-06-30 上海依图信息技术有限公司 一种获取音频最适播放速度的方法与系统
CN112258594A (zh) * 2020-10-23 2021-01-22 北京字节跳动网络技术有限公司 文字显示方法、装置、电子设备及计算机可读存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150068609A (ko) * 2013-12-12 2015-06-22 삼성전자주식회사 이미지 정보 표시 방법 및 장치
KR20150123579A (ko) * 2014-04-25 2015-11-04 삼성전자주식회사 사용자 음성으로부터 감정정보를 확인하는 방법 및 장치
CN103986826A (zh) * 2014-05-12 2014-08-13 深圳市威富多媒体有限公司 一种基于语音识别的移动终端加解密的方法及装置
US9576175B2 (en) * 2014-05-16 2017-02-21 Verizon Patent And Licensing Inc. Generating emoticons based on an image of a face
GB2544070B (en) 2015-11-04 2021-12-29 The Chancellor Masters And Scholars Of The Univ Of Cambridge Speech processing system and method
WO2018079294A1 (ja) * 2016-10-27 2018-05-03 ソニー株式会社 情報処理装置及び情報処理方法
CN108470188B (zh) * 2018-02-26 2022-04-22 北京物灵智能科技有限公司 基于图像分析的交互方法及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1670821A (zh) * 2004-03-19 2005-09-21 乐金电子(中国)研究开发中心有限公司 一种基于语音/文本转换技术的文本表现方法
CN101604521A (zh) * 2008-06-12 2009-12-16 Lg电子株式会社 移动终端和用于识别其语音的方法
CN102193620A (zh) * 2010-03-02 2011-09-21 三星电子(中国)研发中心 一种基于表情识别的输入方法
CN102231278A (zh) * 2011-06-10 2011-11-02 安徽科大讯飞信息科技股份有限公司 实现语音识别中自动添加标点符号的方法及系统
CN102237088A (zh) * 2011-06-17 2011-11-09 盛乐信息技术(上海)有限公司 语音识别多信息文本获取装置及方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI365416B (en) * 2007-02-16 2012-06-01 Ind Tech Res Inst Method of emotion recognition and learning new identification information
TW201030634A (en) * 2009-02-06 2010-08-16 Ren-Liang Wu Genuine recognition system combining image and sound analysis, and its method
TW201035967A (en) * 2009-03-31 2010-10-01 Univ Nat United Online game speech emotion real-time recognition system and method
US8788270B2 (en) * 2009-06-16 2014-07-22 University Of Florida Research Foundation, Inc. Apparatus and method for determining an emotion state of a speaker

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1670821A (zh) * 2004-03-19 2005-09-21 乐金电子(中国)研究开发中心有限公司 一种基于语音/文本转换技术的文本表现方法
CN101604521A (zh) * 2008-06-12 2009-12-16 Lg电子株式会社 移动终端和用于识别其语音的方法
CN102193620A (zh) * 2010-03-02 2011-09-21 三星电子(中国)研发中心 一种基于表情识别的输入方法
CN102231278A (zh) * 2011-06-10 2011-11-02 安徽科大讯飞信息科技股份有限公司 实现语音识别中自动添加标点符号的方法及系统
CN102237088A (zh) * 2011-06-17 2011-11-09 盛乐信息技术(上海)有限公司 语音识别多信息文本获取装置及方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104240703A (zh) * 2014-08-21 2014-12-24 广州三星通信技术研究有限公司 语音信息处理方法和装置
CN104240703B (zh) * 2014-08-21 2018-03-06 广州三星通信技术研究有限公司 语音信息处理方法和装置
CN105353957A (zh) * 2015-10-28 2016-02-24 深圳市金立通信设备有限公司 一种信息显示方法及终端
CN110488997A (zh) * 2019-07-03 2019-11-22 深圳市九洲电器有限公司 基于语音的书写板实现方法及相关产品
CN111356010A (zh) * 2020-04-01 2020-06-30 上海依图信息技术有限公司 一种获取音频最适播放速度的方法与系统
CN112258594A (zh) * 2020-10-23 2021-01-22 北京字节跳动网络技术有限公司 文字显示方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
TW201351394A (zh) 2013-12-16
US8935165B2 (en) 2015-01-13
US20130325464A1 (en) 2013-12-05
TWI484475B (zh) 2015-05-11

Similar Documents

Publication Publication Date Title
CN103474081A (zh) 文字显示方法与处理装置以及计算机程序产品
CN110751208B (zh) 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
CN108962255B (zh) 语音会话的情绪识别方法、装置、服务器和存储介质
CN107767869B (zh) 用于提供语音服务的方法和装置
CN109767765A (zh) 话术匹配方法及装置、存储介质、计算机设备
CN107657017A (zh) 用于提供语音服务的方法和装置
CN109614934A (zh) 在线教学质量评估参数生成方法及装置
WO2020253128A1 (zh) 基于语音识别的通信服务方法、装置、计算机设备及存储介质
CN111681681A (zh) 语音情绪识别方法、装置、电子设备及存储介质
US20200410265A1 (en) Conference recording method and data processing device employing the same
CN112001175B (zh) 流程自动化方法、装置、电子设备及存储介质
JP2017016566A (ja) 情報処理装置、情報処理方法及びプログラム
CN111901627B (zh) 视频处理方法、装置、存储介质及电子设备
CN109754783A (zh) 用于确定音频语句的边界的方法和装置
CN110085229A (zh) 智能虚拟外教信息交互方法及装置
CN113420556B (zh) 基于多模态信号的情感识别方法、装置、设备及存储介质
JP5083033B2 (ja) 感情推定装置及びプログラム
Alghifari et al. On the use of voice activity detection in speech emotion recognition
CN111653274A (zh) 唤醒词识别的方法、装置及存储介质
CN114882861A (zh) 语音生成方法、装置、设备、介质及产品
CN113255362B (zh) 人声过滤与识别方法、装置、电子设别及存储介质
Xia et al. A dynamic model for behavioral analysis of couple interactions using acoustic features.
CN115101053A (zh) 基于情绪识别的对话处理方法、装置、终端及存储介质
CN113808577A (zh) 语音摘要的智能提取方法、装置、电子设备及存储介质
CN114155832A (zh) 基于深度学习的语音识别方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20131225