CN105531757B

CN105531757B - 语音选择辅助装置以及语音选择方法

Info

Publication number: CN105531757B
Application number: CN201380079572.7A
Authority: CN
Inventors: 铃木优; 平野薰
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2013-09-20
Filing date: 2013-09-20
Publication date: 2019-08-06
Anticipated expiration: 2033-09-20
Also published as: WO2015040751A1; JP6320397B2; JPWO2015040751A1; CN105531757A; US20160189704A1; US9812119B2

Abstract

本发明的实施方式的语音选择辅助装置具备：受理部，接受文本的输入；解析知识存储部，存储在所输入的上述文本的特征分析中使用的文本解析知识；解析部，参照上述文本解析知识，对上述文本的特征进行分析；语音属性存储部，存储每个语音词典的语音属性；评价部，评价上述语音词典的上述语音属性与上述文本的特征之间的类似度；以及候选提示部，根据上述类似度，提示适合于上述文本的上述语音词典的候选。

Description

语音选择辅助装置以及语音选择方法

技术领域

本发明的实施方式涉及语音选择辅助装置以及语音选择方法。

背景技术

在利用语音合成时，为了选择发音者(语音词典)而需要实际听取语音，因此难以从许多候选中进行选择。在以往提供的发音者的选择中，作为选择项的发音者即使较多也就有10种左右，但近年来渐渐成为提供了800种以上的语音词典。因此，作为选择发音者的手段，提供了指定属性(性别、年代、属性(冷酷/沙哑/萌等))而进行检索的方式。此外，存在如下技术，即，在再现环境中不存在由文本的元数据指定的发音者的语音词典的情况下，基于元数据中记述的属性(与上述的属性相同)选择代替的语音并再现选择出的语音。

现有技术文献

专利文献

专利文献1：日本特开2013―72957号公报

发明内容

发明要解决的课题

但是，在指定属性而检索发音者的方法中，利用者难以恰当地设定与输入文本的朗读(よみあげ)相适合的发音者的属性。此外，在语音词典大量存在的情况下，即使通过属性来检索也有可能提供许多发音者的候选而无法缩小范围。

本发明的实施方式是鉴于上述情况而做出的，目的在于提供一种利用者能够容易地选择所希望的发音者的语音选择辅助装置。

用于解决课题的手段

为了解决上述课题而达成目的，本发明的实施方式的特征在于，具备：受理部，接受文本的输入；解析知识存储部，存储在所输入的上述文本的特征分析中使用的文本解析知识；解析部，参照上述文本解析知识，对上述文本的特征进行分析；语音属性存储部，存储每个语音词典的语音属性；评价部，评价上述语音词典的上述语音属性与上述文本的特征之间的类似度；以及候选提示部，根据上述类似度，提示适合于上述文本的上述语音词典的候选。

附图说明

图1是表示实施方式的语音选择辅助装置的功能结构的框图。

图2是表示实施方式的语音属性的例子的图。

图3是表示实施方式的文本解析处理的流程的流程图。

图4是表示实施方式的文本解析知识的例子的图。

图5是表示实施方式的对发音者的类似度进行评价的处理的流程的流程图。

图6是表示实施方式的变形例的语音属性的例子的图。

图7是表示实施方式的变形例的语音选择辅助装置的功能结构的框图。

图8是表示实施方式的变形例的发音者的选择履历的例子的图。

图9是实施方式的根据选择履历对发音者的语音属性进行更新的处理的流程图。

图10是表示实施方式的语音选择辅助装置的硬件结构的框图。

具体实施方式

以下，参照附图对本发明的实施方式进行说明。

(第一实施方式)

在第一实施方式中说明一种语音选择辅助装置，其能够在输入文本文书时，从多个发音者的语音词典之中提示基于合成语音的朗读中使用的语音词典的候选。图1是表示本实施方式的语音选择辅助装置1的功能结构的框图。语音选择辅助装置1具备受理部101、解析部102、评价部104、候选提示部106、选择受理部109、结果输出部110、语音合成部107、解析知识存储部103、语音属性存储部105和语音词典存储部108。另外，这些各部可以由软件实现，也可以由电子电路等硬件实现。

受理部101受理由用户进行的、成为语音合成中的朗读对象的文本的输入。解析部102一边参照在解析知识存储部103中存储的文本解析知识，一边对受理部101从用户受理的文本进行解析。关于文本解析知识的详请，在后面描述。

评价部104对语音属性存储部105中存储的表示语音合成的每个发音者的语音特征的语音属性和解析部102的解析结果进行比较，之后进行评价，选出适合于将所输入的文本通过语音合成进行朗读的发音者的候选。候选提示部106向用户提示由评价部104选出的一个至多个发音者的信息。此时，也可以利用语音合成部107，从语音词典存储部108中切换为与各发音者相对应的语音词典，将所输入的文本的整体或一部分进行语音合成。

选择受理部109受理用户从候选提示部106提示的发音者之中判断为对于朗读所输入的文本而言最恰当的发音者的选择。结果输出部110向用户提示选择受理部109受理的用户的判断结果。

接下来，利用图2说明语音属性存储部105中存储的表示语音合成的每个发音者的语音特征的语音属性。图2中示出了语音属性存储部105中存储的语音属性的例子。如图2所示，语音属性通过性别、年龄层、类型、风格(style)、形式、特征这些项目来表现。关于风格，由朗读(ですます)、朗读(である)、会话(正式)、会话(直率)这些观点来表现。关于形式，由小说、教科书、邮件、会话、广播这些观点来表现。此外，关于特征，由适合于各发音者进行朗读的文章中特征性单词的列表来表现。

此外，将每个发音者的性别用M(男性)/F(女性)的记号标记，将每个发音者的年龄层用C(儿童)/Y(青年)/M(成人)/H(老人)的记号标记，将每个发音者的类型用C(冷酷)/H(沙哑)/K(可爱)/M(萌)/G(温柔)的记号标记，风格和形式用各个项目合计为100那样的数值标记。

例如，图2的201表示，是青年男性的冷酷声音，适合于比较正式的会话风格，并且适合于小说及广播的形式。此外，作为特征，可以认为比较适合于科学技术类的内容。另一方面，图2的202表示，虽然在青年男性的冷酷声音这一点上与201同样，但风格适合于直率的会话，形式适合于邮件及会话。此外，作为特征，可以认为适合于设计、时尚这样的比较休闲的内容。

这样，即使性别、年龄层、类型相同，也有风格、形式、内容的适合与否不同的情况。这样的语音属性例如可以由各个发音者自己设定以便说明自身的声音特征，如果各发音者是例如解说员或配音员等，则也可以通过后述的解析部102的处理对过去用自身的嗓音朗读过的文章组进行解析，或者根据该文章组中包含的语句的频率等将特征性语句进行列表化等，从而作为语音属性来使用。

另外，关于图2中的观点的种类及各观点的表现方法，是用于具体说明本实施方式的例子，而不是将本发明的内容限定于这些种类及表现方法。此外，图2中为了进行说明而仅记载了6人的发音者的语音属性，但在本实施方式中，设为在语音属性存储部105中实际上存储有更多的发音者的语音属性。

此外，虽然将语音属性的标签标记为“发音者姓名”，但各语音属性以及语音词典不需要一定对应于特定的人物。也可以通过将多个人物的语音进行组合，或对某个人物的语音词典加以变更，来制作不实际存在的人物的语音属性及语音词典，也可以是同一人物改变声音，从而针对一个发音者对应多个语音属性及语音词典。

接着，作为对本实施方式的动作进行说明的例子，对用户朗读「花子は混雑を避け書店の奥で待った。(中间略)見覚えのある本である。」这样的文章的情况进行说明。另外，该文章是仿照小说的一部分的例子。虽然实际上设想将小说整体输入，但这里为了说明而仅将一部分作为例子来考虑。

受理部101受理用户输入的文章，接着送至解析部102。接着，解析部102按照图3的流程，一边参照在解析知识存储部103中存储的文本解析知识，一边对所输入的文章进行解析。具体而言，如图3所示，首先，解析部102对所输入的文章进行词素解析(morphologicalanalysis)(步骤S301)。词素解析是将文章分割为单词并赋予词性的处理，能够通过公知方法实现，因此此处不作详述。以下表示词素解析的结果的例子。

“花子＜人名(名)＞+は＜助词＞/混雑＜名词＞+を＜助词＞/避け＜动词＞/書店＜名词＞+の＜助词＞/奥＜名词＞+で＜助词＞/待っ＜动词＞+た＜助动词＞/。＜句号＞(中间略)見覚え＜名词＞+の＜助词＞/ある＜动词＞/本＜名词＞+である＜助动词＞/。＜句号＞”

这里，“＜○○＞”表示词性，“+”表示单词的划分，“/”表示词组的划分。此外，词性的“人名(名)”表示人名(固有名词)的姓名的名，其他表示标记所示的词性。

接下来，解析部102从解析知识存储部103中一一取出文本解析知识(步骤S302)。图4是表示文本解析知识的例子的图。文本解析知识由模式、属性、权重这3个值构成。其中，“模式”通过与上述词素解析处理的结果同样的表现来记述，在后级的处理(步骤S304)中与输入文的词素解析结果相比较。此外，“属性”表示语音属性之中对应的属性。“权重”表示在模式已匹配的情况下在后级的处理(步骤S305)中向对应的属性相加的分数。

例如，图4的401表示，在所输入的文章的词素解析结果的一部分与“+です＜助动词＞+。＜句号＞”一致的情况下，对“朗读(ですます)”属性加1。在取出了一个文本解析知识的情况下(步骤S303：是)，解析部102将取出的文本解析知识的“模式”和输入文章的词素解析结果进行比较，判断是否一致(步骤S304)。比较的结果是模式一致的情况下(步骤S304：是)，解析部102对文本解析知识的“属性”加上“权重”的值(步骤S305)。

模式不一致的情况(步骤S304：否)下，或者在步骤S305之后，再次回到步骤S302，解析部102从解析知识存储部103取出下个文本解析知识。这样，反复进行步骤S302～S305，当取出全部的文本解析知识而不再取出新的文本解析知识时(步骤S303：否)，解析部102前进至步骤S306，将相加后的权重标准化(步骤S306)。

关于标准化，对于图2例示的语音属性的“风格”和“形式”的各个分类，以使同一分类内的相加值的合计成为100的方式进行标准化。但是，对于同一分类内的任一属性，在值为0的情况下，都不进行标准化。

例如，上述词素解析结果的例的情况下，在步骤S304中图4的402与403一致，对属性的“朗读(ですます)”和“小说”分别各加上权重1。此外，由于“朗读(ですます)”和“小说”分别属于不同的分类(“风格”和“形式”)，因此步骤S306中的标准化的结果是，各自的值被变更为100，在步骤S307中与输入文章以及输入文章的词素解析结果一起被输出到评价部104。

另外，文本解析知识不需要一定是图4那样的形式，例如也可以考虑或然性地表现词素的N-gram(模式)与属性的对应(权重)。这样的文本解析知识能够通过利用人工等本实施方式中不包含的方法将具体的文章和恰当的属性建立对应、并将文章中包含的N-gram和属性统计性地建立关系等处理来制作。

图5表示评价部104接受来自解析部102的输入、并对语音属性存储部105中存储的语音属性进行评价的处理的流程。首先，评价部104进行Smax＝0、Vmax＝null的初始化(步骤S501)。Smax是表示综合类似度的最大值的变量。Vmax是表示综合类似度最大的发音者的变量。接下来，评价部104从语音属性存储部105将语音属性一一取出(步骤S502)。

评价部104判断语音属性的取出是否成功(步骤S503)。语音属性的取出失败的情况下(步骤S503：否)，即对于全部的语音属性结束了类似度计算的情况下，评价部104输出Vmax并结束处理(步骤S510)。另一方面，语音属性的取出成功的情况下(步骤S503：是)，评价部104计算解析部102的结果与语音属性的“风格”的值的内积即S1(步骤S504)。

接着，评价部104计算解析部102的结果与语音属性的“形式”的值的内积即S2(步骤S505)。并且，评价部104计算在语音属性的“特征”的单词列表之中的、在输入文章的词素解析结果中包含的单词的数量即S3(步骤S506)。另外，例如为了标准化也可以将单词列表向量化而求出内积。

最后，评价部104利用算式Sim＝α·S1+β·S2+γ·S3，计算综合类似度Sim(步骤S507)。α、β、γ是能够根据怎样重视风格、形式、特征而进行调整的、预先设定的参数。并且，评价部104判断是否Sim＞Smax(步骤S508)。如果Sim＞Smax(步骤S508：是)，评价部104将Smax更新，使发音者姓名存储在Vmax中(步骤S509)。

例如，假设α＝1、β＝1、γ＝0.1，则成为

发音者A：S1＝0.2，S2＝0.3，S3＝0，Sim＝0.5

发音者B：S1＝0.4，S2＝0.3，S3＝1，Sim＝0.8

发音者C：S1＝0.3，S2＝0.0，S3＝0，Sim＝0.3

发音者D：S1＝0.1，S2＝0.1，S3＝0，Sim＝0.2

发音者E：S1＝0.2，S2＝0.3，S3＝1，Sim＝0.6

发音者F：S1＝0.1，S2＝0.1，S3＝0，Sim＝0.2，

输出Vmax＝发音者B。

另外，图5的流程中，仅输出1名Sim为最大的发音者，但例如也可以按Sim的降序将N人的发音者作为候选而由评价部104输出。

候选提示部106接受评价部104的处理结果，向用户提示被评价为适合于朗读输入文章的发音者。此时，也可以不仅提示发音者姓名，还参照该发音者的语音属性而将性别、年龄层、类型等信息一并提示。

进而，候选提示部106向语音合成部107发送来自用户的输入文章和评价部104输出的发音者姓名。语音合成部107参照在语音词典存储部108中存储的语音词典之中的、与所输入的发音者姓名对应的发音者的语音词典，从而将所输入的文章用合成语音输出。这里，用发音者B的语音词典朗读用户输入的文章。另外，在所输入的文章比预先设定的文章长度长的情况下，语音合成部107也可以仅朗读所输入的文章的一部分。

确认了候选提示部106和语音合成部107的输出的用户，通过选择受理部109输入是否选择所提示的发音者。在用户选择了发音者的情况下，选择受理部109将用户选择了发音者这一情况传达给结果输出部110。结果输出部110输出所选择的发音者的信息，并且对语音合成部107指示以该发音者的语音词典朗读用户输入的文章，语音合成部107输出合成语音。

在用户没有选择候选提示部106提示的发音者的情况下，选择受理部109将没有选择该发音者这一情况传达给评价部104。评价部104对于该发音者以外的发音者的语音属性再次进行同样的评价，将成为下一候选的发音者向候选提示部106输出。重复该处理直到候选提示部106输出的发音者被选择为止。

另外，也可以如下这样进行动作，即：在评价部104按Sim的降序输出N人的候选的情况下，候选提示部106列举显示这些候选，选择受理部109受理用户从N人的候选中选择的候选。该情况下，也可以是，语音合成部107不是通过N人的候选的语音词典一次进行朗读，而是在候选提示部106控制显示的同时依次进行朗读，使得所提示的候选与语音的对应被知晓，或者控制语音合成部107，使得以候选提示部106接受来自用户的指示而指定的发音者的语音词典进行朗读。

以上所示的本实施方式的语音选择辅助装置1中，关于风格及形式，自动地进行所输入的文本的解析，选择具有与基于文本解析的评价结果相近的语音属性的发音者，并提示给利用者。因而，利用者根据自身的判断，不需要进行检索就能够容易地选择适合的发音者。

另外，在第一实施方式中示出了提示适合通过语音合成来朗诵用户输入的文章的发音者的例子，而作为其变形例1，也可以考虑进行控制而使得难以选择不适合朗读所输入的文书的发音者。对于这样的变形例，基于图6所示的语音属性的例子进行说明。

图6的601是使得性别＝女性、年龄层＝青年、类型＝萌的发音者D在风格＝朗读(である)的文章中不会被选择的例子。具体而言，将风格＝朗读(である)的值设定为“－100”，对于风格＝朗读(である)的文章，在评价部104的处理中使风格类似度S1成为负的值，从而难以被选择。这时，对于朗读(である)以外的风格的值，仅以朗读(である)以外的风格的值进行标准化以使合计值为100。

此外，图6的602是使得性别＝男性、年龄层＝青年、类型＝冷酷的发音者F在包含词语“俺”的文章中难以被选择的例子。在“特征”中列举的单词列表之中，在开头附加“－”而记载了单词“俺”。

评价部104通过进行在输入文章中包含开头附加有“－”的语句的情况下使特征类似度S3的值变小或为负等的控制，能够控制为，该发音者针对包含该语句的输入文章不易被选择。

进而，也可以是，不仅使不适合的发音者不易被选择，评价部104还进行控制以使得不适合的发音者完全不会作为候选被提示。

根据该变形例1，发音者自身也能够进行控制，使得自身的语音词典在例如要求年龄限制或违反公序良俗的文章、或与形象不符合的文章的朗读中不会被使用。

此外，作为第一实施方式的其他变形例，也可以是，使得能够利用用户输入的文章和选择的发音者的信息来更新在语音属性存储部105中存储的语音信息。图7是表示该变形例的语音选择辅助装置1a的功能结构的图。如图7所示，除了图1的结构外，语音选择辅助装置1a新具备选择履历存储部701和语音属性更新部702。选择履历存储部701从结果输出部110接收并存储选择结果及输入文章作为选择履历进行。语音属性更新部702根据在选择履历存储部701中存储的选择履历，对语音属性进行更新。

图8表示从结果输出部110输出并存储在选择履历存储部701中的选择履历的例子。图8的选择履历包括：作为选择受理部109受理的用户的选择结果的发音者姓名、解析部102从用户输入的文章求出的风格和形式的各属性标准化而成的权重、以及结果输出部110将解析部102对用户输入的文章进行词素解析得到的解析结果中包含的普通名词进行提取并列举而成的关键字。例如，图8的801是与第一实施方式中说明的具体例对应的选择履历。

这里，作为关键字，仅考虑了解析部102将用户输入的文章进行词素解析得到的解析结果中包含的普通名词，但也可以包含固有名词或动词、形容词等其他词性的单词。

此外，也可以考虑用户输入的文章是例如小说整体等较长的文章组的情况，因此也可以使得不是用户输入的文章中包含的全部语句，而是通过出现频率等统计量附加优先顺序而仅将一定个数以下的单词设为关键字包含在选择履历中。

接下来，语音属性更新部702按照图9的流程图更新语音属性存储部105中存储的语音属性。首先，语音属性更新部702按每个选择结果(发音者)收集选择履历(步骤S901)。例如，图8的801和802由于选择结果均为发音者B从而被收集。接着，语音属性更新部702按每个发音者求出各属性的平均值(步骤S902)。例如，关于图8的发音者B，朗读(ですます)的值为80，朗读(である)的值为5，会话(正式)的值为15，会话(直率)的值为0，小说的值为65，教科书的值为0，邮件的值为5，会话的值为10，广播的值为20。

此外，关键字也进行合并。例如，关于图8的发音者B，关键字成为“混雑、書店、奥、見覚え、本、本日、来店、案内、…”。并且，语音属性更新部702按每个发音者更新语音属性(步骤S903)。从语音属性存储部105取出通过S901收集的发音者的语音属性，对通过S902求出的平均值乘以参数δ后，与各属性的值相加。例如，假设参数δ＝0.1，则关于图2中与发音者B对应的203，朗读(ですます)的值为48，朗读(である)的值为10.5，会话(正式)的值为31.5，会话(直率)的值为10，小说的值为36.5，教科书的值为0，邮件的值为10.5，会话的值为21，广播的值为42。进而，对于语音属性的“风格”和“形式”的各个分类，以使同一分类内的相加值的合计为100的方式进行标准化。

另外，这里为了说明而假设了参数δ的值，但参数δ的值是用于对以怎样的程度将选择履历反映到语音属性中的情况进行调整的值，可以考虑设定为比δ＝0.1更小的值。此外，参数δ不需要是常数，例如也可以是选择履历的数量等的函数。接下来，在语音属性的“特征”中追加在S902中合并后的选择履历的“关键字”。

在语音属性的更新后，评价部104参照语音属性存储部105执行评价，从而选择履历被反映到发音者的候选的选择中。此时，若选择履历存储部701将选择履历按每个用户单独地进行管理，语音属性更新部702也根据每个用户的单独的选择履历将语音属性单独地更新，语音属性存储部105也将更新后的语音属性按每个用户单独地进行管理，则能够将各个用户的发音者选择的倾向(喜好)反映到评价部104的评价中。

另一方面，在选择履历存储部701收集管理全部的用户的选择履历的情况下，用户群整体的发音者选择的倾向被反映到评价部104的评价中，能够期待评价部104的评价精度的提高。

此外，本变形例中，设为语音属性更新部702更新语音属性存储部105中存储的语音属性的结构，但例如也可以通过如下构成来实现与变形例同样的动作，即，不更新语音属性存储部105中存储的语音属性，而是在评价部104执行评价时参照选择履历存储部701中存储的选择履历，从而进行反映了选择履历的评价。

以上各实施方式的语音选择辅助装置1如图10所示那样例如具备CPU10等控制装置、ROM11(Read Only Memory：只读存储器)及RAM12等存储装置、HDD13、CD驱动装置等外部存储装置、显示器装置等显示装置14、键盘或鼠标等输入装置15，成为利用了通常的计算机的硬件结构。

以上各实施方式的语音选择辅助装置中执行的程序能够以可安装的形式或可执行的形式的文件记录在CD－ROM、软盘(FD)、CD－R、DVD(Digital Versatile Disk：数字多功能磁盘)等计算机可读取的记录介质中来提供。

此外，也可以构成为，将以上各实施方式的程序保存在与因特网等网络连接的计算机上并经由网络下载来提供。此外，也可以构成为，将以上各实施方式的语音选择辅助装置中执行的程序经由因特网等网络提供或分发。

此外，也可以构成为，将以上各实施方式的程序预先组入ROM等中来提供。

此外，以上各实施方式的语音选择辅助装置中执行的程序成为包含上述各部的模块结构，作为实际的硬件，CPU(处理器)从上述存储介质中读出程序并加以执行从而将上述各部装载到主记录装置上，在主存储装置上生成上述各部。

对本发明几个实施方式进行了说明，但这些实施方式是作为例子提示的，并不意欲限定发明的范围。这些新的实施方式能够以其他各种各样的方式实施，在不脱离发明主旨的范围内，能够进行各种省略、替换、变更。这些实施方式及其变形包含在发明的范围及主旨中，并且包含在权利要求记载的发明及其等同范围内。

Claims

1.一种语音选择辅助装置，其特征在于，

具备：

受理部，接受文本的输入；

解析知识存储部，存储在所输入的上述文本的特征分析中使用的文本解析知识；

解析部，参照上述文本解析知识对上述文本进行词素解析，来取得上述文本的特征；

语音属性存储部，存储表示与语音词典分别对应的语音合成的每个发音者的语音特征的语音属性；

评价部，评价上述语音词典的上述语音属性与所取得的上述文本的特征之间的类似度；以及

候选提示部，根据上述类似度，提示适合于上述文本的上述语音词典的候选。

2.如权利要求1所述的语音选择辅助装置，其特征在于，还具备：

词典存储部，存储上述语音词典；

语音合成部，根据来自利用者的指示，使用所提示的上述语音词典的候选的上述语音词典，将输入文本的全部或一部分语音化并提示给利用者；

选择受理部，受理由利用者做出的上述语音词典的选择指示；以及

结果输出部，输出选择结果。

3.如权利要求1或2所述的语音选择辅助装置，其特征在于，

上述语音属性存储部以使上述语音词典相对于具有规定的上述特征的上述文本的上述类似度变低的方式，存储该语音词典的上述语音属性。

4.如权利要求2所述的语音选择辅助装置，其特征在于，还具备：

履历存储部，存储从上述结果输出部接收到的上述选择结果以及上述文本，作为选择履历；以及

更新部，根据在上述履历存储部中存储的上述选择履历，更新上述语音词典的语音属性。

5.一种语音选择方法，其特征在于，包括：

接受文本的输入的步骤；

参照在所输入的上述文本的特征分析中使用的文本解析知识对上述文本进行词素解析，来取得上述文本的特征的步骤；

对语音词典的语音属性与所取得的上述文本的特征之间的类似度进行评价的步骤，上述语音属性表示与语音词典分别对应的语音合成的每个发音者的语音特征；以及

根据上述类似度提示适合于上述文本的上述语音词典的候选的步骤。