CN110431546B - 发音者检索装置、发音者检索方法以及发音者检索程序 - Google Patents

发音者检索装置、发音者检索方法以及发音者检索程序 Download PDF

Info

Publication number
CN110431546B
CN110431546B CN201780088429.2A CN201780088429A CN110431546B CN 110431546 B CN110431546 B CN 110431546B CN 201780088429 A CN201780088429 A CN 201780088429A CN 110431546 B CN110431546 B CN 110431546B
Authority
CN
China
Prior art keywords
speaker
score
score vector
unit
management information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780088429.2A
Other languages
English (en)
Other versions
CN110431546A (zh
Inventor
森纮一郎
铃木优
大谷大和
森田真弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Publication of CN110431546A publication Critical patent/CN110431546A/zh
Application granted granted Critical
Publication of CN110431546B publication Critical patent/CN110431546B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Abstract

发音者检索装置(10)具备第一变换部(14B)、受理部(14C)和检索部(14D)。第一变换部(14B)使用用于将表示声质特征的得分向量变换成声学模型的第一变换模型(12B)的逆变换模型,将预先登记的声学模型变换成得分向量,并与发音者ID建立对应地登记在得分管理信息(12C)中。受理部(14C)受理得分向量的输入。检索部(14D)从得分管理信息(12C)中检索与受理的得分向量相似的发音者ID。

Description

发音者检索装置、发音者检索方法以及发音者检索程序
技术领域
本发明的实施方式涉及发音者检索装置、发音者检索方法以及发音者检索程序。
背景技术
近年来,由于语音合成技术的发展,能从文本制作高品质的合成音。特别是已知通过使用采用隐马尔可夫模型(HMM)的语音合成技术,能够操作声学模型来灵活地控制合成音。此外还提出了一种技术,该技术从语音中提取声音特征量,求出输入语音的声音特征量与语音数据库的各发音者的声音特征量的相似度,检索出与输入语音相比声质的相似度高的发音者。通过使用该技术,从期望的发音者的语音中提取声音特征量,并求出声音特征量间的相似度,由此能够从大规模的语音数据库中检索与期望的发音者的声质近似的发音者候补。
但是,在以前的方法中需要事先准备用户期望的发音者的语音作为查询。因此,在以前存在若不能准备期望的发音者的语音则无法检索相似发音者的问题。即,在以前难以检索声质相似度高的发音者。
现有技术文献:
专利文献:
专利文献1:WO2009/110613号公报
非专利文献:
非专利文献1:Yusuke Ijima et al.Similar Speaker Selection TechniqueBased on Distance Metric Learning Using Highly Correlated Acoustic Featureswith Perceptual Voice Quality Similarity,IEICE Trans.INF.&SYST.,Vol.E98-D,No.1(2015)
发明内容
发明所要解决的问题
本发明所要解决的问题在于,提供一种能够检索声质相似度高的发音者的发音者检索装置、发音者检索方法以及发音者检索程序。
用于解决问题的手段
实施方式的发音者检索装置具备第一变换部、受理部和检索部。第一变换部使用第一变换模型的逆变换模型,将预先登记的声学模型变换成得分向量,并与发音者识别信息建立对应地登记在得分管理信息中,所述第一变换模型用于将表示声质特征的得分向量变换成声学模型。受理部受理得分向量的输入。检索部从得分管理信息中检索与受理的得分向量相似的发音者识别信息。
附图说明
图1是示出发音者检索装置的一例的图。
图2是示出发音者管理信息的数据结构的一例的模式图。
图3是示出得分向量的一例的模式图。
图4是示出得分管理信息的数据结构的一例的模式图。
图5是示出输入画面的一例的模式图。
图6是示出显示画面的一例的模式图。
图7是示出检索处理的过程的一例的流程图。
图8是示出发音者检索处理的过程的一例的流程图。
图9是示出发音者检索装置的一例的图。
图10是示出语音管理信息的数据结构的一例的模式图。
图11是示出得分管理信息的数据结构的一例的模式图。
图12是示出发音者检索装置执行的检索处理的过程的一例的流程图。
图13是示出发音者检索装置的硬件结构例的说明图。
具体实施方式
以下,参照附图,对发音者检索装置、发音者检索方法以及发音者检索程序详细地进行说明。
(第一实施方式)
图1是示出本实施方式的发音者检索装置10的一例的图。
发音者检索装置10是对用户期望的声质的发音者进行检索的装置。发音者检索装置10具备存储部12、处理部14、语音输出部16、UI(用户接口)部18。
存储部12、语音输出部16、UI部18以及处理部14经由总线等可收发数据或信号地进行连接。
语音输出部16输出语音。语音输出部16例如是扬声器。
UI部18包括输入部18A和显示部18B。输入部18A受理用户的操作。输入部18A例如是数字笔、鼠标、或者跟踪球等指示设备、或键盘等输入设备。显示部18B显示各种信息。显示部18B例如是LCD等显示器或投影装置等。再有,UI部18也可以是一体地具有输入部18A和显示部18B的触摸板。
存储部12存储各种数据。存储部12例如是RAM(Random Access Memory:随机存储器)、快闪存储器等半导体存储器元件、硬盘、光盘等。再有,存储部12也可以是设置在发音者检索装置10外部的存储装置。此外,存储部12也可以是存储介质。具体而言,存储介质是将程序或各种信息经由LAN(Local Area Network:局域网)或因特网等下载后进行存储或暂时存储的设备。此外,也可以由多个存储介质构成存储部12。
在本实施方式中,存储部12对发音者管理信息12A、第一变换模型12B和得分管理信息12C进行存储。
发音者管理信息12A是与发音者的语音有关的信息。发音者管理信息12A预先存储在存储部12中。图2是示出发音者管理信息12A的数据结构的一例的模式图。
发音者管理信息12A是将发音者ID、语音数据、语音文本、声音特征量、语言特征量、声学模型、得分向量建立对应而成的数据库。再有,发音者管理信息12A的数据形式不限定于数据库。例如,发音者管理信息12A也可以是表。
发音者ID是识别发音者的识别信息(发音者识别信息)。发音者ID是能够识别发音者的信息即可。发音者ID例如是发音者的名字等。
语音数据是根据对应的发音者ID而识别的发音者的语音的数据。在发音者管理信息12A中,与发音者ID相对应地登记着多个语音数据(例如N个(N为2以上的整数))。语音数据的数据格式不限。例如,语音数据的数据格式是WAV、AIFF、BWF等。
语音的文本是语音数据的收录原稿。
声音特征量是从对应的语音数据中提取的语音(声音)的特征量。在声音特征量中使用在HMM(隐马尔可夫模型(hidden Markov model))语音合成中使用的声音特征量即可。例如,声音特征量是表示音韵或音色的梅尔倒谱系数、梅尔LPC系数、梅尔LSP系数、表示声音高度的基本频率(F0)、表示语音的周期·非周期成分的比例的非周期性指标(BAP)等。假定在发音者管理信息12A中,与登记的发音者ID相对应的声音特征量被预先导出而预先登记在发音者管理信息12A中。
语言特征量是从对应的语音文本中提取的语言的特征量。例如,语言特征量是前后音素、有关发音的信息、短语末尾位置、句子长度、重音(accent)短语长度、短音节(モーラ,mora)长度、短音节位置、口音(accent)类型、词性、依存信息等。假定在发音者管理信息12A中,与登记的发音者ID相对应的语言特征量被预先导出而预先登记在发音者管理信息12A中。
声学模型是将从发音者的语音的语言特征量到语音的声音特征量的映射统计性地模型化而得到的。例如,在声学模型中使用HMM语音合成中的声学模型。使用将输入作为语言特征量并将输出作为声音特征量的决策树来模型化声学模型。利用分配给决策树的各叶节点的多维正态分布的平均向量和协方差矩阵的集合来表现作为输出的声音特征量。通过从发音者的声音特征量和语言特征量推断作为声学模型的参数的、上述平均向量和协方差矩阵,而生成声学模型。
在本实施方式中,对使用HMM语音合成中的决策树的声学模型作为声学模型的情况进行说明。但是,不限定于使用HMM语音合成中的决策树的声学模型作为声学模型的方式。例如,也可以使用神经网络等的将语言特征量映射在声音特征量上的任意的模型作为声学模型。
假定在发音者管理信息12A中,与登记的发音者ID相对应的声学模型被预先导出而预先登记在发音者管理信息12A中。再有,在本实施方式中,声学模型也可以不与发音者管理信息12A中的一部分发音者ID相对应地登记。
得分向量表示发音者的声质特征。在本实施方式中,得分向量表示发音者的声质的主观特征。
图3是示出得分向量的一例的模式图。得分向量是按照声质特征的每个种类用得分(即数值)表示发音者的声质特征的主观强度的向量。声质特征的种类不是物理特征量,而是在主观上对声质进行分类的种类。声质特征的种类也可以预先设定。例如,声质特征的种类是“性别”、“年龄”、“欢快度”、“硬度”、“清晰度”、“流畅度”、“嘶哑度”等。即,得分向量是使用根据表示声质的主观种类给予了标签的轴表示发音者的主观特征的向量。
与这些特征种类相对应的得分表示这些种类的特征强度。得分例如用数值表示。图3中示出了用“0”到“1”的范围表示得分的情况。例如,声质特征的种类“性别”的得分越接近于“0”越表示是女性,得分越接近于“1”越表示是男性。此外,声质特征的种类“年龄”的得分越接近于“0”越表示年轻,得分越接近于“1”越表示年龄大。
因此,在图3中示出的例子中,与发音者ID“A”相对应的得分向量示出根据该发音者ID“A”而识别出的发音者的声质特征为年幼孩子的声音。此外,与发音者ID“B”相对应的得分向量示出根据该发音者ID“B”而识别出的发音者的声质特征为年轻女性的声音。此外,与发音者ID“D”相对应的得分向量示出根据该发音者ID“D”而识别出的发音者的声质特征为年老男性的声音。
返回到图2继续说明。假定在发音者管理信息12A中,与发音者管理信息12A中登记的多个发音者ID内的一部分发音者ID相对应地预先登记有得分向量。假定对发音者管理信息12A的一部分发音者ID预先给予了得分向量,通过与根据该发音者ID而识别出的发音者的声质有关的问卷调查,使该得分向量反映出多数人的主观上的声质感觉。
再有,假定在发音者管理信息12A中登记的发音者ID的数量大于等于用户手动操作难以从发音者管理信息12A检索出期望的发音者时的数量。
返回到图1继续说明。下面,对第一变换模型12B和得分管理信息12C进行说明。第一变换模型12B是用于将得分向量变换成声学模型的模型。第一变换模型12B由处理部14学习,并存储到存储部12(以后详细叙述)。
得分管理信息12C是在用户检索发音者时使用的数据库。得分管理信息12C由后述的处理部14登记(以后详细叙述)。
下面,对处理部14进行说明。处理部14对发音者检索装置10进行控制。处理部14包括第一学习部14A、第一变换部14B、受理部14C、检索部14D、显示控制部14E、第二变换部14F、合成部14G以及再现部14H。
上述各部分(第一学习部14A、第一变换部14B、受理部14C、检索部14D、显示控制部14E、第二变换部14F、合成部14G、再现部14H)例如由1个或多个处理器来实现。例如,上述各部分也可以通过使CPU(central processing unit:中央处理器)等处理器执行程序来实现,即由软件来实现。上述各部分也可以由专用IC(Integrated Circuit:集成电路)等处理器来实现,即由硬件来实现。上述各部分也可以并用软件和硬件来实现。在使用多个处理器的情况下,各处理器可以实现各部中的一个,也可以实现各部中的2个以上。
此外,上述各部的至少一个也可以搭载在云上执行处理的云服务器上。
第一学习部14A从发音者管理信息12A学习第一变换模型12B。第一变换模型12B如上所述是用于将得分向量变换成声学模型的模型。
第一学习部14A确定发音者管理信息12A中登记的多个发音者ID内的、登记有得分向量的多个发音者ID。并且,第一学习部14A使用与所确定的多个发音者ID分别对应的声学模型、和与该发音者ID分别对应的得分向量,学习1个第一变换模型12B。
例如,第一学习部14A使用非专利文献2中公开的多元回归HSMM(隐半马尔可夫模型)或非专利文献3中公开的聚类自适应学习等,从发音者管理信息12A学习第一变换模型12B。
(非专利文献2)Tachibana et al.“A technique for controlling voicequality of synthetic speech using multiple regression HSMM,”in Proceedings ofINTERSPEECH 2006,pp.2438-2441(2006)
(非专利文献3)大谷他、統計的音声合成におけるクラスタ適応学習を利用した知覚表現語による話者制御法の検討、音響学会(春)講演論文集(2016)
在本实施方式中,以第一学习部14A使用多元回归HSMM学习第一学习部14A的情况作为一例进行说明。但是,第一学习部14A也可以使用其他方法从发音者管理信息12A学习第一变换模型12B。例如,第一学习部14A也可以使用对从向量到向量的映射进行学习的算法、例如神经网络等来学习第一变换模型12B。
在使用多元回归HSMM的情况下,第一变换模型12B用下述公式(1)表示。
μ=Hs+b……公式(1)
公式(1)是示出第一变换模型12B的公式。公式(1)中,μ表示用正态分布表示的声学模型的平均向量。μ有时被称为超向量。超向量是利用将决策树的全部叶节点的平均向量连起来的向量表示用正态分布表示的声学模型的平均向量而成的。
此外,公式(1)中,s表示得分向量。此外,H表示变换矩阵。B表示偏置向量。s(得分向量)用下述公式(2)表示。
s=(s1,s2,……sL)……公式(2)
公式(2)中,s表示得分向量。si(i为在1以上L以下的整数)是得分向量的第i种类的声质特征的得分。L是声质特征的种类的数量。
在使用多元回归HSMM的情况下,第一学习部14A确定发音者管理信息12A中包含的发音者ID内的、对应有得分向量的发音者ID。并且,第一学习部14A使用与发音者管理信息12A中所确定的发音者ID相对应的声学模型的平均向量μ和与该发音者ID相对应的得分向量s,作为学习数据。第一学习部14A使用学习数据,通过最大似然估计求出变换矩阵H和偏置向量b。
由此,第一学习部14A生成由公式(1)示出的第一变换模型12B,并登记到存储部12。即,通过第一学习部14A,将确定了变换矩阵H和偏置向量b的公式(1)作为第一变换模型12B而存储到存储部12。
通过使用第一变换模型12B,能够从得分向量s导出声学模型(声学模型的平均向量μ)。即,通过使用第一变换模型12B,处理部14能够合成由任意的得分向量表示的声质的语音。
下面,对第一变换部14B进行说明。第一变换部14B使用第一变换模型12B,将发音者管理信息12A中登记的声学模型变换成得分向量,并与发音者ID建立对应地登记到得分管理信息12C中。第一变换模型12B是用于将得分向量变换成声学模型的模型。因此,第一变换部14B使用第一变换模型12B的逆变换模型,将发音者管理信息12A中登记的声学模型变换成得分向量,并登记到得分管理信息12C中。
首先,对得分管理信息12C进行说明。图4是示出得分管理信息12C的数据结构的一例的模式图。
得分管理信息12C与发音者管理信息12A同样地是将发音者ID、语音数据、语音文本、声音特征量、语言特征量、声学模型以及得分向量建立对应而成的数据库。再有,得分管理信息12C的数据形式不限定于数据库。例如,得分管理信息12C也可以是表。
在得分管理信息12C中登记有发音者管理信息12A中示出的全部数据。并且,在得分管理信息12C中,与发音者管理信息12A中的未登记有得分向量的发音者ID相对应地进一步登记有由第一变换部14B变换得到的得分向量。
因此,如图4所示,在发音者管理信息12A(参照图2)中登记的得分向量(Sa)被原样地反映在得分管理信息12C中。另一方面,关于在发音者管理信息12A中未登记有得分向量的发音者ID(例如发音者ID“C”、“E”),在得分管理信息12C中成为登记有由第一变换部14B变换得到的得分向量(Sb)的状态。
返回到图1继续说明。在本实施方式中,第一变换部14B确定发音者管理信息12A中的未登记有得分向量的发音者ID。在是图2中示出的发音者管理信息12A的构成的情况下,第一变换部14B确定未登记有得分向量的发音者ID(例如发音者ID“C”、“D”、“E”)。
并且,第一变换部14B使用第一变换模型12B的逆变换模型,将与所确定的发音者ID相对应的声学模型变换成与该发音者ID相对应的得分向量。
详细地说,第一变换部14B对示出第一变换模型12B的公式(1)进行变形,导出示出逆变换模型的下述公式(3)。下述公式(3)是示出第一变换模型12B的逆映射的逆变换模型的公式。
s=(HTH)-1HT(μ-b)……公式(3)
在公式(3)中,s、H、μ和b的定义与上述公式(1)和公式(2)相同。
第一变换部14B从第一变换模型12B确定变换矩阵H和偏置向量b。并且,第一变换部14B使用代入了该变换矩阵H和偏置向量b的公式(3),作为第一变换模型12B的逆变换模型。并且,第一变换部14B根据发音者管理信息12A中的与未登记有得分向量的发音者ID相对应的声学模型的平均向量μ,导出得分向量S(图4中得分向量Sb)。并且,第一变换部14B将导出的得分向量与对应的发音者ID建立对应并登记到得分管理信息12C。
在本实施方式中,第一变换部14B将发音者管理信息12A中登记的全部数据登记到得分管理信息12C之后,进一步将第一变换部14B导出的得分向量与对应的发音者ID建立对应并登记到得分管理信息12C中。
因此,如上所述,在发音者管理信息12A(参照图2)中登记的得分向量(Sa)被原样地反映在得分管理信息12C中(参照图4)。另一方面,对于在发音者管理信息12A中未登记有得分向量的发音者ID(例如发音者ID“C”、“E”),在得分管理信息12C中成为登记有由第一变换部14B变换得到的得分向量Sb的状态。再有,在图2和图4中示出的例子中,在发音者ID“D”上未对应有声学模型,因此,第一变换部14B无法导出得分向量。因此,在本实施方式中,关于发音者ID“D”,在得分管理信息12C中不登记得分向量。
再有,也可以是,得分管理信息12C中的全部得分向量都是由第一变换部14B变换得到的得分向量。该情况下,第一变换部14B使用第一变换模型12B的逆变换模型,将与发音者管理信息12A中登记的全部发音者ID分别对应的声学模型变换成得分向量,并登记到得分管理信息12C中即可。
再有,在本实施方式中,将发音者管理信息12A和第一变换模型12B是不同的数据库的情况作为一例而示出。但是,也可以将发音者管理信息12A和第一变换模型12B构成为一个管理信息(即一个数据库)。
此外,在得分管理信息12C中至少登记有与发音者ID相对应的得分向量即可,也可以是未登记有语音数据、语音文本、声音特征量、语言特征量和声学模型中的至少一个的形式。
再有,在使用多元回归HSMM的情况下,第一变换部14B可以如上所述地使用第一变换模型12B的逆变换模型,从声学模型导出得分向量。另一方面,在使用如神经网络这样地不会解析性地求逆映射的方法的情况下,第一变换部14B与第一变换模型12B同样地另外学习将从声学模型的平均向量μ到得分向量的映射模型化而得到的模型即可。并且,第一变换部14B使用该模型,从声学模型导出得分向量即可。
返回到图1继续说明。受理部14C受理得分向量的输入。用户通过操作输入部18A来输入示出检索对象的发音者的语音特征的得分向量。如上所述,得分向量是使用给予了与表示声质的主观种类相应的标签的轴来表示发音者的主观特征的向量。因此,用户可以不使用物理特征量,而使用表示声质的主观标签来输入检索对象的期望声质。
在得分向量的输入时,通过显示控制部14E的控制,在显示部18B上显示输入画面。
显示控制部14E进行将各种图像或信息显示到显示部18B上的控制。在本实施方式中,显示控制部14E将用于受理得分向量的输入的输入画面显示到显示部18B上。
图5是示出输入画面30的一例的模式图。输入画面30包括得分向量输入栏30A、得分向量显示栏30B、再现按钮30C和决定按钮30D。
得分向量输入栏30A是用于输入用户期望的示出检索对象的发音者的声质特征的得分向量的输入栏。例如,在得分向量输入栏30A中按照声质特征的每个种类显示用于输入得分的滑动条30F。用户一边参照输入画面30一边操作输入部18A,对滑动条30F示出的调节钮30E的位置进行调整。通过该操作,用户按照声质特征的每个种类输入得分。
得分向量显示栏30B是按照声质特征的每个种类表示得分的显示栏,所述得分是根据通过得分向量输入栏30A输入的得分向量而示出的得分。
在指示再现按照得分向量显示栏30B中显示的得分向量而合成的语音时,由用户对再现按钮30C进行操作指示。在指示与得分向量显示栏30B中显示的得分向量相应的发音者的检索执行时,由用户对决定按钮30D进行操作指示。
在输入画面30的得分向量输入栏30A中,通过用户进行的输入部18A的操作指示而输入得分向量,再现按钮30C被操作指示。
于是,UI部18向处理部14输出在再现按钮30C被操作指示时在输入画面30上显示的得分向量显示栏30B示出的得分的得分向量和再现指示。
由此,处理部14的受理部14C受理得分向量和再现指示。
返回到图1继续说明。受理部14C在从输入部18A受理了得分向量和再现指示时,将受理的得分向量输出到第二变换部14F。
第二变换部14F使用第一变换模型12B将受理的得分向量变换成声学模型。即,第二变换部14F通过使用第一变换模型12B,将通过用户进行的输入部18A的操作指示而输入的得分向量,变换成该得分向量表示的声质的发音者的声学模型。并且,第二变换部14F将变换后的声学模型输出到合成部14G。
合成部14G根据从第二变换部14F受理的声学模型合成语音。从声学模型合成语音的方法使用公知的方法即可。
例如,合成部14G使用声学模型,将从任意文本提取的语言特征量变换成声音特征量,并使用音码器从声音特征量合成语音(例如参照参考文献1)。
(参考文献1)Keiichi Tokuda“Speech Synthesis based on Hidden MarkovModels,”in Proceedings of the IEEE,vol.101,no.5,pp.1234-1252,2013.
在此,在现有方法中,经常使梅尔倒谱系数对应粗细度,使F0对应声音的高度,使周期·非周期成分对应嘶哑度等,使物理特征量与得分一对一地相对应。另一方面,在本实施方式中,第一学习部14A从发音者管理信息12A学习作为专用的变换模型的第一变换模型12B。因此,合成部14G通过使用第一变换模型12B,能够从任意发音者的声学模型合成人主观上感到的特征的声质的语音。
再现部14H对语音输出部16进行控制,使得对在合成部14G中合成的语音进行再现。语音输出部16对在合成部14G中合成的语音进行再现。因此,用户可以确认与通过输入部18A的操作指示而输入的得分向量相应的语音。此外,用户在输入画面30的操作时,操作再现按钮30C,由此能够一边确认与输入中的得分向量相应的语音,一边输入检索对象的期望的得分向量。
并且,用户在决定了作为检索对象而使用的得分向量时,操作指示输入画面30上的决定按钮30D即可。
即,在输入画面30的得分向量输入栏30A中,通过用户进行的输入部18A的操作指示来输入得分向量,决定按钮30D被操作指示。于是,UI部18将在决定按钮30D被操作指示时在输入画面30上显示的得分向量显示栏30B示出的得分的得分向量、和检索执行指示,输出到处理部14。
处理部14的受理部14C受理得分向量和检索执行指示。
受理部14C在从UI部18受理了得分向量和检索执行指示时,将该得分向量输出到检索部14D。
检索部14D从得分管理信息12C中检索与所受理的得分向量相似的得分向量所对应的发音者ID。
详细地说,检索部14D使用欧几里得距离等计算从输入部18A经由受理部14受理的得分向量与得分管理信息12C中登记的各个得分向量之间的距离。欧几里得距离例如用下述公式(4)表示。
[数学式1]
公式(4)中,s表示经由受理部14C从输入部18A受理的检索对象(即检索查询(关键字))的得分向量。s用上述公式(2)表示。此外,公式(4)中,si(i为在1以上L以下的整数)是受理的得分向量的第i种类的声质特征的得分。
此外,公式(4)中,ti(i为在1以上L以下的整数)是得分管理信息12C中登记的得分向量的第i种类的声质特征的得分。再有,假定得分管理信息12C中登记的得分向量的声质特征的种类和由受理部14C从输入部18A受理的得分向量的声质特征的种类相同。
此外,公式(4)中,t表示得分管理信息12C中登记的得分向量。t用下述公式(5)表示。
t=(t1,t2,……tL)……公式(5)
公式(5)中,L与上述同样是声质特征的种类的数量。
并且,检索部14D确定得分管理信息12C中登记的得分向量内的、与从输入部18A经由受理部14C受理的得分向量之间的距离近的上位K个得分向量(K为1以上的整数)。并且,检索部14D确定得分管理信息12C中的与确定的该得分向量相对应的发音者ID。由此,检索部14D从得分管理信息12C中检索与由受理部14C受理的得分向量相似的发音者ID。
即,在本实施方式中,检索部14D不是用梅尔倒谱系数或F0等物理特征量求出发音者的声音之间的相似度,而是使用这些反映了人的主观判断的得分向量来检索相似的发音者ID。
再有,检索部14D也可以使用对声质特征的种类进行加权而得到的得分向量来检索发音者ID。
该情况下,显示控制部14E在输入画面30上和用于输入得分的输入区域(在图5中的滑动条30F)一起按照声质特征的每个种类设置加权值的输入栏,并显示到显示部18B上即可。
并且,用户通过一边参照输入画面30一边操作输入部18A,按照声质特征的每个种类进一步输入加权值即可。该情况下,受理部14C受理示出声质特征的每个种类的得分的得分向量、针对声质特征的种类的加权值、以及检索执行指示。
并且,检索部14D使用所受理的所述得分向量中包含的、对声质特征的每个种类的得分用对应的加权值进行加权后得到的得分向量,作为检索查询(关键字),与上述同样地从得分管理信息12C中检索相似的发音者ID即可。
详细地说,检索部14D使用下述公式(6)中示出的欧几里得距离,计算从输入部18A经由受理部14C受理的得分向量和得分管理信息12C中登记的各个得分向量之间的距离。
[数学式2]
公式(6)中,s、si、t、ti与上述公式(4)同样。公式(6)中,w表示加权值。公式(6)中,wi表示针对第i种类的声质特征的加权值。
像这样,检索部14D也可以使用针对声质特征的种类进行加权后得到的得分向量来检索发音者ID。
通过进行加权,容易检索出用户期望的发音者ID。再有,处理部14也可以预先进行针对声质特征的种类的优化后的加权,使得与人的主观的声音的相似标尺相匹配。
检索部14D将检索到的发音者ID以及得分管理信息12C中的与该发音者ID相对应的得分向量输出到显示控制部14E。显示控制部14E将包含由检索部14D检索到的发音者ID的显示画面显示到显示部18B上。
图6是示出显示画面32的一例的模式图。显示画面32包括得分向量输入栏32A、得分向量显示栏32B、检索结果显示栏32C和再现按钮32D。
得分向量输入栏32A和得分向量显示栏32B是作为检索查询使用的得分向量的显示栏。检索结果显示栏32C是使用在得分向量输入栏32A和得分向量显示栏32B中显示的得分向量检索到的发音者ID的检索结果的显示栏。
在图6中示出的例子中,在检索结果显示栏32C中显示由检索部14D检索到的发音者ID的一览和与该发音者ID相对应的得分向量。再有,在图6中,作为一例,示出了上述K(与受理的得分向量之间的距离近的上位K个)为“3”的情况。即,在图6中示出了检索出3个发音者ID作为与在得分向量输入栏32A和得分向量显示栏32B中示出的得分向量相似的得分向量所对应的K个发音者ID的例子。
在检索结果显示栏32C中的与各个发音者ID分别对应的区域中显示有再现按钮32D(32D1~32D3)。在指示再现按照所对应的发音者ID的得分向量而合成的语音时,由用户对再现按钮32D进行操作指示。
用户通过操作输入部18A来操作指示再现按钮32D。于是,UI部18将与该再现按钮32D相对应的得分向量和再现指示输出到处理部14。例如,设想操作指示了再现按钮32D1。于是,UI部18将与该再现按钮32D1相对应的、与发音者ID“A”相对应的得分向量(在检索结果显示栏32C中显示的得分向量)和再现指示输出到处理部14。
处理部14在从UI部18受理了得分向量和再现指示时,受理部14C、第二变换部14F、合成部14G和再现部14H进行与上述同样的处理。因此,与由用户操作指示的再现按钮32D相对应的发音者ID的得分向量变换成声学模型,从而从语音输出部16再现从该声学模型合成的语音。
因此,用户可以确认与在检索结果显示栏32C中示出的各个发音者ID分别对应的语音。
再有,检索部14D也可以经由网络等通信线路,将检索结果发送到外部装置。该情况下,检索部14D将作为检索查询而使用的得分向量、检索到的发音者的发音者ID、以及与该发音者ID相对应的得分向量发送到外部装置。这样,能够在受理了这些信息的外部装置一侧对与输入的得分向量相应的发音者的检索结果进行确认。
下面,对在发音者检索装置10中执行的检索处理的过程的一例进行说明。
图7是示出检索处理的过程的一例的流程图。首先,第一学习部14A使用发音者管理信息12A学习第一变换模型12B(步骤S100)。第一学习部14A将学习到的第一变换模型12B存储到存储部12(步骤S102)。
接着,第一变换部14B使用第一变换模型12B,将发音者管理信息12A中登记的声学模型变换成得分向量(步骤S104),并登记到得分管理信息12C中(步骤S106)。接着,处理部14执行发音者检索处理(步骤S108)。并且,结束本流程。
图8是示出发音者检索处理(图7的步骤S108)的过程的一例的流程图。
首先,处理部14读入存储部12中存储的第一变换模型12B(步骤S200)。接着,显示控制部14E在UI部18上显示输入画面30(步骤S202)。通过步骤S202的处理,在UI部18上显示例如图5中示出的输入画面30。
用户一边参照输入画面30一边操作输入部18A,按照声质特征的每个种类输入得分。由此,用户输入了与检索对象的发音者的声质特征相应的得分向量。并且,用户操作指示再现按钮30C。
接着,受理部14C在判断为受理了得分向量的输入(步骤S204:“是”)以前,反复进行否定判断(步骤S204:“否”)。例如,受理部14C通过判别是否从输入部18A受理了得分向量和再现指示,来进行步骤S204的判断。
在步骤S204中为肯定判断时(步骤S204:“是”),前进到步骤S206。在步骤S206中,第二变换部14F使用第一变换模型12B,将在步骤S204中受理的得分向量变换成声学模型(步骤S206)。接着,合成部14G从在步骤S206中变换得到的声学模型合成语音(步骤S208)。并且,再现部14H再现控制语音输出部16,使得输出在步骤S208中合成的语音(步骤S210)。
通过步骤S210的处理,从语音输出部16输出了与通过用户的操作而输入的得分向量相应的语音。
接着,受理部14C判断是否受理了检索执行指示(步骤S212)。在步骤S212中,受理部14C通过判别是否从输入部18A受理了得分向量和检索执行指示,来进行步骤S212的判断。再有,也可以在步骤S204中为否定判断的情况下,进行步骤S212的判断。
在步骤S212中为否定判断时(步骤S212:“否”),返回到上述步骤S204。另一方面,在步骤S212中为肯定判断时(步骤S212:“是”),前进到步骤S214。
在步骤S214中,检索部14D从得分管理信息12C中检索与在步骤S212中受理的得分向量相似的得分向量所对应的发音者ID(步骤S214)。
接着,显示控制部14E将包含在步骤S214中检索到的发音者ID的显示画面32显示到显示部18B(步骤S216)。通过步骤S216的处理,例如在显示部18B上显示图6中示出的显示画面32。
接着,受理部14C判断是否从输入部18A受理了再现指示(步骤S218)。在步骤S218中为否定判断时(步骤S218:“否”),前进到后述的步骤S226。另一方面,在步骤S218中为肯定判断时(步骤S218:“是”),前进到步骤S220。
在步骤S220中,第二变换部14F使用第一变换模型12B,将在步骤S218中和再现指示一起受理的得分向量变换成声学模型(步骤S220)。接着,合成部14G从在步骤S220中变换得到的声学模型合成语音(步骤S222)。并且,再现部14H再现控制语音输出部16,使得输出在步骤S222中合成的语音(步骤S224)。
通过步骤S224的处理,从语音输出部16输出了与通过用户的操作而输入的得分向量相应的语音。
接着,处理部14判断是否结束处理(步骤S226)。处理部14例如判别是否通过用户进行的输入部18A的操作指示而操作了用于指示处理结束的预定的按钮,由此来进行步骤S226的判断。在步骤S226中为否定判断时(步骤S226:“否”),返回到上述步骤S218。再有,也可以在步骤S226中为否定判断的情况下,返回到上述步骤S202。在步骤S226中为肯定判断时(步骤S226:“是”),结束本流程。
如以上说明,本实施方式的发音者检索装置10具备第一变换部14B、受理部14C和检索部14D。第一变换部14B使用用于将表示声质特征的得分向量变换成声学模型的第一变换模型12B的逆变换模型,将预先登记的声学模型变换成得分向量,并与发音者ID(发音者识别信息)相对应地登记在得分管理信息12C中。受理部14C受理得分向量的输入。检索部14D从得分管理信息12C中检索与受理的得分向量相似的发音者ID(发音者识别信息)。
在此,以前使用用户期望的发音者的语音数据作为检索查询来检索用户期望的语音的发音者。因此,以前若不事先登记用户期望的发音者的语音数据,就无法检索发音者。
另一方面,本实施方式的发音者检索装置10使用表示声质特征的得分向量作为检索查询,从得分管理信息12C中检索与受理的得分向量相似的发音者ID。此外,本实施方式的发音者检索装置10使用用于将表示声质特征的得分向量变换成声学模型的第一变换模型12B,将预先登记的声学模型变换成得分向量,并与发音者ID(发音者识别信息)相对应地登记在得分管理信息12C中。
从而,本实施方式的发音者检索装置10能够检索声质相似度高的发音者。
此外,以前采用的是将与庞大数量的发音者分别对应的语音数据预先按每个类别进行分类,检索期望的发音者的方法。但是,登记的发音者的数量越庞大,分类工作的负荷或成本也就越庞大。
另一方面,本实施方式的发音者检索装置10使用表示声质特征的得分向量作为检索查询,从得分管理信息12C中检索与受理的得分向量相似的发音者ID。
因此,本实施方式的发音者检索装置10不会导致对在成为检索母体的数据库中登记的发音者的语音预先进行分类的负荷或成本的增大,就能够检索声质相似度高的发音者。
此外,以前通过梅尔频率倒谱系数、基本频率(F0)等基本物理特征量间的比较来导出发音者间的相似度。因此,在以前,这些物理特征量间的相似度与人主观感觉的发音者间的近似度有时会不一致。
另一方面,在本实施方式的发音者检索装置10中,作为检索查询而使用的得分向量表示发音者声质的主观特征。因此,本实施方式的发音者检索装置10除了上述效果之外,还能够检索出主观的声质相似度高的发音者。
(第二实施方式)
在上述实施方式中示出了在得分管理信息12C中登记有在发音者管理信息12A中登记的全部数据和由第一变换部14B登记的得分数据的情况。
即,在上述实施方式中示出了在得分管理信息12C中登记有预先在发音者管理信息12A中登记的得分数据和由第一变换部14B从声学模型导出的得分数据的情况。
在本实施方式中,对在得分管理信息12C中还登记从声音特征量导出的得分向量的方式进行说明。
图9是示出本实施方式的发音者检索装置10A的一例的图。
发音者检索装置10A具备存储部13、处理部15、语音输出部16以及UI部18。存储部13、语音输出部16、以及UI部18、处理部15经由总线等可收发数据或信号地进行连接。语音输出部16和UI部18与第一实施方式同样。
存储部13存储各种数据。存储部13例如是RAM、快闪存储器等半导体存储器元件、硬盘、光盘等。再有,存储部13也可以是设置在发音者检索装置10A外部的存储装置。此外,存储部13也可以是存储介质。此外,也可以由多个存储介质构成存储部13。
在本实施方式中,存储部13存储发音者管理信息12A、第一变换模型12B、得分管理信息12C、第三变换模型13D以及语音管理信息13E。发音者管理信息12A和第一变换模型12B与第一实施方式同样。
语音管理信息13E是与发音者的语音有关的信息。语音管理信息13E登记有与在第三变换模型13D的学习中使用的语音有关的信息。语音管理信息13E预先存储在存储部13中。
图10是示出语音管理信息13E的数据结构的一例的模式图。语音管理信息13E是将发音者ID和语音数据建立对应而形成的数据库。再有,语音管理信息13E的数据形式不限定于数据库。例如,语音管理信息13E也可以是表。
发音者ID与第一实施方式同样地是识别发音者的识别信息(发音者识别信息)。再有,在语音管理信息13E中登记有在发音者管理信息12A(参照图2)中登记的发音者ID内的、至少未与声学模型建立对应的发音者ID(例如发音者ID“D”)。此外,在语音管理信息13E中还登记有在发音者管理信息12A中未登记的发音者的发音者ID(例如发音者ID“X”、“Y”、“Z”)。
再有,在语音管理信息13E中,除了上述发音者ID之外,也可以还登记有在发音者管理信息12A中登记的发音者ID的至少一部分。
在语音管理信息13E中,与发音者ID相对应地登记着多个语音数据。再有,语音管理信息13E中的与各发音者ID相对应地登记的语音数据的数量是少于发音者管理信息12A的与各发音者ID相对应地登记的语音数据的数量(N个)且大于1的数量即可。
返回到图9继续说明。第三学习部15J从发音者管理信息12A学习第三变换模型13D。第三变换模型13D是用于将声音特征量变换成得分向量的模型。
第三学习部15J使用与在发音者管理信息12A中登记的发音者ID分别对应的声音特征量、和与该发音者管理信息12A中的发音者ID分别对应的得分向量,学习第三变换模型13D。
第三学习部15J使用对从声音特征量的向量到得分向量的映射进行学习的公知方法来学习第三变换模型13D即可。例如,第三学习部15J使用线性回归模型、核回归模型、神经网络等学习第三变换模型13D。再有,第三学习部15J使用与发音者管理信息12A中包含的发音者ID分别对应的声音特征量和得分向量来推断这些模型的参数即可。
并且,第三学习部15J将学习到的第三变换模型13D存储到存储部13。
特征提取部15K从语音管理信息13E中登记的语音数据中提取声音特征量。详细地说,特征提取部15K按照语音管理信息13E中登记的每个发音者ID,从语音数据中提取声音特征量。声音特征量用向量表示。再有,特征提取部15K使用公知的方法从语音数据中提取声音特征量即可。
再有,与声学模型的生成相比,可以从很少数量的语音数据中提取声音特征量。因此,如上所述,语音管理信息13E中的与各发音者ID相对应地登记的语音数据的数量是少于发音者管理信息12A的与各发音者ID相对应地登记的语音数据的数量(N个)且大于1的数量即可。
第三变换部15L使用第三变换模型13D,将发音者的声音特征量变换成得分向量并登记到得分管理信息13C中。
详细地说,第三变换部15L使用第三变换模型13D,将由特征提取部15K从语音管理信息13E按照每个发音者ID提取出的语音特征量变换成得分向量。并且,第三变换部15L将语音管理信息13E中登记的发音者ID和变换后得到的得分向量建立对应,并登记到得分管理信息13C中。
得分管理信息13C与得分管理信息12C同样地是在用户进行发音者的检索时使用的数据库。得分管理信息13C被第一变换部14B和第三变换部15L登记和更新。
图11是示出得分管理信息13C的数据结构的一例的模式图。得分管理信息13C与发音者管理信息12A和第一实施方式的得分管理信息12C同样地是将发音者ID、语音数据、语音文本、声音特征量、语言特征量、声学模型以及得分向量建立对应而形成的数据库。再有,得分管理信息13C的数据形式不限定于数据库。例如,得分管理信息13C也可以是表。
得分管理信息13C中,与发音者管理信息12A中的未登记有得分向量的发音者ID相对应地进一步登记了由第一变换部14B变换得到的得分向量和由第三变换部15L变换得到的得分向量。
在此,在第一实施方式中使用的得分管理信息12C(参照图4)中登记有:预先登记在发音者管理信息12A中的得分向量Sa和由第一变换部14B从声学模型变换后得到的得分向量Sb。因此,在得分管理信息12C中,对于在发音者管理信息12A中未登记有声学模型的发音者ID(例如发音者ID“D”),未登记有得分向量(参照图4)。
另一方面,在本实施方式中使用的得分管理信息13C中,如图11所示,除了在第一实施方式中的得分管理信息12C(参照图4)中登记的得分向量(得分向量(Sa)、(Sb))之外,还登记有从声音特征量变换得到的得分向量(Sc)。因此,在得分管理信息13C中也登记有对于在发音者管理信息12A中未登记有声学模型的发音者ID(例如发音者ID“D”)的得分向量。
此外,在语音管理信息13E中还登记有与在发音者管理信息12A中未登记的发音者ID相对应的语音数据。并且,第三变换部15L使用由特征提取部15K从该语音管理信息13E提取出的声音特征量,导出得分向量,并登记到得分管理信息13C中。
因此,在得分管理信息13C中,与在第一实施方式中使用的得分管理信息12C相比,登记有与更多发音者的发音者ID相对应的得分向量,能够作为相似发音者检索的对象。
此外,第一实施方式中的由第一变换部14B登记的得分向量(Sb)是从声学模型中导出的。因此,由第二变换部14F和合成部14G使用从声学模型导出的得分向量而合成的语音是合成音(不是实际发音者的真声,而是合成后的语音)。
另一方面,由第三变换部15L登记的得分向量是使用第三变换模型13D从由特征提取部15K从语音管理信息13E中提取出的声音特征量中导出的。因此,由第二变换部14F和合成部14G使用从声音特征量导出的得分向量合成而得到的语音,成为实际发音者的真声或者接近于真声的语音。
因此,检索部14D除了从得分管理信息12C之外,还从得分管理信息13C检索与由受理部14C受理的得分向量相似的得分向量所对应的发音者ID,由此,检索部14D除了检索合成音,还能够检索真声的语音的发音者。
此外,在本实施方式的发音者检索装置10A中可以使用通用的得分向量来检索合成音和真声这两种语音的发音者。因此,能够跨越式地检索合成音和真声。
因此,例如用户如果能够满意期望的合成音的音质,可以使用声学模型。并且,若对音质不满意,也可以有用户使用与输入的得分向量相似的真声声质的发音者ID的检索结果对由该发音者ID识别的发音者委托收录这种使用方法。
下面,对在发音者检索装置10A中执行的检索处理的过程的一例进行说明。图12是示出发音者检索装置10A执行的检索处理的过程的一例的流程图。
首先,处理部15执行步骤S300~步骤S306的处理。步骤S300~步骤S306的处理与第一实施方式的步骤S100~步骤S106同样(参照图7)。
具体而言,首先,第一学习部14A使用发音者管理信息12A学习第一变换模型12B(步骤S300)。第一学习部14A将学习到的第一变换模型12B存储到存储部13(步骤S302)。
接着,第一变换部14B使用第一变换模型12B,将在发音者管理信息12A中登记的声学模型变换成得分向量,并登记到得分管理信息13C中(步骤S306)。
接着,第三学习部15J使用发音者管理信息12A学习第三变换模型13D(步骤S308)。并且,第三学习部15J将学习到的第三变换模型13D存储到存储部13(步骤S310)。
接着,特征提取部15K提取与在语音管理信息13E中登记的语音数据分别对应的声音特征量(步骤S312)。接着,第三变换部15L使用第三变换模型13D,将在步骤S312中按照每个发音者ID提取出的各个声音特征量变换成得分向量(步骤S314)。
接着,第三学习部15J将在步骤S314中变换得到的得分向量和与该得分向量相对应的发音者ID建立对应,并登记到得分管理信息13C中(步骤S316)。
接着,处理部15执行发音者检索处理(步骤S316)。步骤S316的处理与第一实施方式(参照图7的步骤S108和图8)同样。并且结束本例程。
如以上说明,本实施方式的发音者检索装置10A除了第一实施方式的结构之外还具备第三变换部15L。第三变换部15L使用用于将声音特征量变换成得分向量的第三变换模型13D,将发音者的声音特征量变换成得分向量并登记到得分管理信息13C中。
因此,在本实施方式的发音者检索装置10A中,除了合成音之外,关于真声语音的发音者也能够作为检索对象。
从而,本实施方式的发音者检索装置10A除了第一实施方式的效果之外,还能够检索声质相似度高的发音者。
此外,在本实施方式的发音者检索装置10A中,第三变换部15L仅使用梅尔倒谱或基本频率等不存在于语言中的声音特征量来学习第三变换模型13D。因此,在发音者检索装置10A中不依靠语言就能检索相似的发音者。
下面,对本实施方式的发音者检索装置10、10A的硬件结构进行说明。图13是示出本实施方式的发音者检索装置10、10A的硬件结构例的说明图。
本实施方式的发音者检索装置10、10A具备:CPU86等控制装置、ROM(Read OnlyMemory:只读存储器)88或RAM(Random Access Memory:随机存取存储器)90等存储装置、与网络连接进行通信的通信I/F82、输出语音的扬声器80、显示部98、输入部94、HDD92、以及连接各部分的总线96。
在本实施方式的发音者检索装置10、10A中执行的程序被预先装入在ROM88等中进行提供。
在本实施方式的发音者检索装置10、10A中执行的程序也可以构成为,以可安装形式或者可执行形式的文件记录在CD-ROM(Compact Disk Read Only Memory:光盘只读存储器)、软盘(FD)、CD-R(Compact Disk Recordable:可录光盘)、DVD(Digital VersatileDisk:数字通用磁盘)等计算机可读取记录介质中,作为计算机程序产品来提供。
另外,也可以构成为,将在本实施方式的发音者检索装置10、10A中执行的程序保存在与因特网等网络连接的计算机上,并经由网络通过下载来提供。此外,也可以构成为,经由因特网等网络提供或者发布在本实施方式涉及的发音者检索装置10、10A中执行的程序。
在本实施方式的发音者检索装置10、10A中执行的程序能使计算机发挥上述的发音者检索装置10、10A的各部分的作用。该计算机可以由CPU86从计算机可读取的存储介质中读出程序到主存储装置上来执行。
再有,在上述实施方式中,设想发音者检索装置10、10A分别构成为单个的装置的情况来进行说明。但是,发音者检索装置10、10A也可以分别由物理上分离并经由网络进行连接的多个装置来构成。此外,上述实施方式的发音者检索装置10、10A也可以作为在云系统上进行动作的虚拟机来实现。
再有,以上说明了本发明的实施方式,但上述实施方式是作为例子而提出的,并不是想限定发明范围。该新的实施方式可以以其他各种各样的方式实施,可以在不脱离发明主旨的范围内进行各种各样的省略、置换和变更。该实施方式或其变形包含在发明范围或主旨内,并且也包含在权利要求记载的发明及其等同范围内。
附图标记的说明
10、10A 发音者检索装置
12、13 存储部
12A 发音者管理信息
12B 第一变换模型
12C、13C 得分管理信息
13D 第三变换模型
13E 语音管理信息
14、15 处理部
14A 第一学习部
14B 第一变换部
14C 受理部
14D 检索部
14E 显示控制部
14F 第二变换部
14G 合成部
14H 再现部
15J 第三学习部
15K 特征提取部
15L 第三变换部
16 语音输出部
18 UI部
18A 输入部
18B 显示部

Claims (8)

1.一种发音者检索装置,其中,具备:
第一变换部,使用用于将表示声质特征的得分向量变换成声学模型的第一变换模型的逆变换模型,将预先登记的所述声学模型变换成所述得分向量,并与发音者识别信息建立对应地登记在得分管理信息中,所述声学模型是将从发音者的语音的语言特征量到语音的声音特征量的映射统计性地模型化而成的;
受理部,受理所述得分向量的输入;以及
检索部,从所述得分管理信息中检索与受理的所述得分向量相似的发音者识别信息。
2.根据权利要求1所述的发音者检索装置,其中,
所述得分向量表示发音者的声质的主观特征。
3.根据权利要求1所述的发音者检索装置,其中,具备:
第二变换部,使用所述第一变换模型,将受理的所述得分向量变换成所述声学模型;以及
再现部,对从所述声学模型合成的语音进行再现。
4.根据权利要求1所述的发音者检索装置,其中,
具备第三变换部,该第三变换部使用用于将所述声音特征量变换成所述得分向量的第三变换模型,将发音者的所述声音特征量变换成所述得分向量,并登记在所述得分管理信息中。
5.根据权利要求4所述的发音者检索装置,其中,
具备第三学习部,该第三学习部学习用于将所述声音特征量变换成所述得分向量的所述第三变换模型。
6.根据权利要求1所述的发音者检索装置,其中,
所述得分向量按照声质的特征的每个种类用得分表示声质特征的主观强度,
所述受理部受理示出所述特征的每个种类的得分的所述得分向量和针对所述特征的种类的加权值,
所述检索部检索与将受理的所述得分向量中包含的所述得分利用对应的加权值进行加权后得到的所述得分向量相似的发音者识别信息。
7.一种发音者检索方法,其中,包括:
使用用于将表示声质特征的得分向量变换成声学模型的第一变换模型的逆变换模型,将预先登记的所述声学模型变换成所述得分向量,并与发音者识别信息建立对应地登记在得分管理信息中的步骤,所述声学模型是将从发音者的语音的语言特征量到语音的声音特征量的映射统计性地模型化而成的;
受理所述得分向量的输入的步骤;以及
从所述得分管理信息中检索与受理的所述得分向量相似的发音者识别信息的步骤。
8.一种记录介质,记录有发音者检索程序,其中,所述发音者检索程序用于使计算机执行下述步骤:
使用用于将表示声质特征的得分向量变换成声学模型的第一变换模型的逆变换模型,将预先登记的所述声学模型变换成所述得分向量,并与发音者识别信息建立对应地登记在得分管理信息中的步骤,所述声学模型是将从发音者的语音的语言特征量到语音的声音特征量的映射统计性地模型化而成的;
受理所述得分向量的输入的步骤;以及
从所述得分管理信息中检索与受理的所述得分向量相似的发音者识别信息的步骤。
CN201780088429.2A 2017-03-22 2017-09-25 发音者检索装置、发音者检索方法以及发音者检索程序 Active CN110431546B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017-056495 2017-03-22
JP2017056495A JP6805037B2 (ja) 2017-03-22 2017-03-22 話者検索装置、話者検索方法、および話者検索プログラム
PCT/JP2017/034573 WO2018173335A1 (ja) 2017-03-22 2017-09-25 話者検索装置、話者検索方法、および話者検索プログラム

Publications (2)

Publication Number Publication Date
CN110431546A CN110431546A (zh) 2019-11-08
CN110431546B true CN110431546B (zh) 2023-10-13

Family

ID=63585166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780088429.2A Active CN110431546B (zh) 2017-03-22 2017-09-25 发音者检索装置、发音者检索方法以及发音者检索程序

Country Status (4)

Country Link
US (1) US10978076B2 (zh)
JP (1) JP6805037B2 (zh)
CN (1) CN110431546B (zh)
WO (1) WO2018173335A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6805037B2 (ja) * 2017-03-22 2020-12-23 株式会社東芝 話者検索装置、話者検索方法、および話者検索プログラム
US11741941B2 (en) * 2020-06-12 2023-08-29 SoundHound, Inc Configurable neural speech synthesis

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044079A (ja) * 2001-08-01 2003-02-14 Sony Corp 音声認識装置および方法、記録媒体、並びにプログラム
CN1465043A (zh) * 2001-06-08 2003-12-31 索尼公司 语音识别装置和语音识别方法
WO2007000816A1 (ja) * 2005-06-29 2007-01-04 Toshiba Tec Kabushiki Kaisha 音声特徴抽出装置、話者認識装置、プログラム及び音声特徴抽出方法
CN102549652A (zh) * 2009-09-09 2012-07-04 歌乐株式会社 信息检索装置、信息检索方法及导航系统
CN103123644A (zh) * 2011-11-18 2013-05-29 株式会社日立制作所 声音数据检索系统及用于该系统的程序
CN105718503A (zh) * 2014-12-22 2016-06-29 卡西欧计算机株式会社 声音检索装置以及声音检索方法
JP2016166927A (ja) * 2015-03-09 2016-09-15 日本電信電話株式会社 パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185181A (ja) * 1997-09-10 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 音声モデルの生成方法並びにその音声モデルを用いた話者認識方法及び話者認識装置
DE602004021716D1 (de) * 2003-11-12 2009-08-06 Honda Motor Co Ltd Spracherkennungssystem
US7707029B2 (en) * 2005-02-08 2010-04-27 Microsoft Corporation Training wideband acoustic models in the cepstral domain using mixed-bandwidth training data for speech recognition
US7454338B2 (en) * 2005-02-08 2008-11-18 Microsoft Corporation Training wideband acoustic models in the cepstral domain using mixed-bandwidth training data and extended vectors for speech recognition
JP2009210790A (ja) * 2008-03-04 2009-09-17 Nec Software Kyushu Ltd 選曲歌手分析推薦装置、その方法及びプログラム
WO2009110613A1 (ja) 2008-03-07 2009-09-11 日本電気株式会社 個人照合装置及び話者登録装置と方法並びにプログラム
CN102023995B (zh) * 2009-09-22 2013-01-30 株式会社理光 语音检索设备和语音检索方法
JP5136621B2 (ja) * 2010-10-15 2013-02-06 ソニー株式会社 情報検索装置及び方法
JP5631915B2 (ja) * 2012-03-29 2014-11-26 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
GB2501067B (en) * 2012-03-30 2014-12-03 Toshiba Kk A text to speech system
US8744854B1 (en) * 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
JP6425370B2 (ja) * 2013-02-18 2018-11-21 オールセーフ株式会社 車椅子固定装置
US10255903B2 (en) * 2014-05-28 2019-04-09 Interactive Intelligence Group, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
JP6523893B2 (ja) 2015-09-16 2019-06-05 株式会社東芝 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
JP6805037B2 (ja) * 2017-03-22 2020-12-23 株式会社東芝 話者検索装置、話者検索方法、および話者検索プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1465043A (zh) * 2001-06-08 2003-12-31 索尼公司 语音识别装置和语音识别方法
JP2003044079A (ja) * 2001-08-01 2003-02-14 Sony Corp 音声認識装置および方法、記録媒体、並びにプログラム
WO2007000816A1 (ja) * 2005-06-29 2007-01-04 Toshiba Tec Kabushiki Kaisha 音声特徴抽出装置、話者認識装置、プログラム及び音声特徴抽出方法
CN102549652A (zh) * 2009-09-09 2012-07-04 歌乐株式会社 信息检索装置、信息检索方法及导航系统
CN103123644A (zh) * 2011-11-18 2013-05-29 株式会社日立制作所 声音数据检索系统及用于该系统的程序
CN105718503A (zh) * 2014-12-22 2016-06-29 卡西欧计算机株式会社 声音检索装置以及声音检索方法
JP2016166927A (ja) * 2015-03-09 2016-09-15 日本電信電話株式会社 パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于声学分段模型的无监督语音样例检测;李勃昊等;《数据采集与处理》;20160315(第02期);全文 *
音频信息检索研究现状与发展趋势;万旺根等;《上海大学学报(自然科学版)》;20070815(第04期);全文 *

Also Published As

Publication number Publication date
WO2018173335A1 (ja) 2018-09-27
JP6805037B2 (ja) 2020-12-23
JP2018160058A (ja) 2018-10-11
US10978076B2 (en) 2021-04-13
US20200013409A1 (en) 2020-01-09
CN110431546A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
Wu et al. Emotion recognition of affective speech based on multiple classifiers using acoustic-prosodic information and semantic labels
CN103310784B (zh) 文本到语音的方法和系统
JP2002540478A (ja) 並列する認識エンジン
US20140025382A1 (en) Speech processing system
US20150058019A1 (en) Speech processing system and method
KR20170034227A (ko) 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법
WO2007043679A1 (ja) 情報処理装置およびプログラム
JP6483578B2 (ja) 音声合成装置、音声合成方法およびプログラム
CN109920409B (zh) 一种声音检索方法、装置、系统及存储介质
US10930264B2 (en) Voice quality preference learning device, voice quality preference learning method, and computer program product
JP4586615B2 (ja) 音声合成装置,音声合成方法およびコンピュータプログラム
Obin et al. Similarity search of acted voices for automatic voice casting
Narendra et al. Optimal weight tuning method for unit selection cost functions in syllable based text-to-speech synthesis
CN110431546B (zh) 发音者检索装置、发音者检索方法以及发音者检索程序
JPWO2007069512A1 (ja) 情報処理装置及びプログラム
US10157608B2 (en) Device for predicting voice conversion model, method of predicting voice conversion model, and computer program product
Shechtman et al. Synthesis of Expressive Speaking Styles with Limited Training Data in a Multi-Speaker, Prosody-Controllable Sequence-to-Sequence Architecture.
JP2018180459A (ja) 音声合成システム、音声合成方法、及び音声合成プログラム
Chen et al. Integrated expression prediction and speech synthesis from text
JP6571231B1 (ja) 検索装置および方法
JP5196114B2 (ja) 音声認識装置およびプログラム
JP2008040035A (ja) 発音評定装置、およびプログラム
KR20230120790A (ko) 가변적 언어모델을 이용한 음성인식 헬스케어 서비스
JP2004117662A (ja) 音声合成システム
Bykov et al. Improvement of the learning process of the automated speaker recognition system for critical use with HMM-DNN component

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant