CN103020019A - 标记辅助设备、方法和程序 - Google Patents
标记辅助设备、方法和程序 Download PDFInfo
- Publication number
- CN103020019A CN103020019A CN2012103640392A CN201210364039A CN103020019A CN 103020019 A CN103020019 A CN 103020019A CN 2012103640392 A CN2012103640392 A CN 2012103640392A CN 201210364039 A CN201210364039 A CN 201210364039A CN 103020019 A CN103020019 A CN 103020019A
- Authority
- CN
- China
- Prior art keywords
- label
- candidate item
- user
- character string
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Abstract
本发明涉及标记辅助设备、方法和程序。根据一个实施例,一种标记辅助设备(200)包括获取单元(205)、第一计算单元(208)、检测单元(207)和展示单元(210)。所述获取单元(205)获取各个标签的特征量,每个标签被用于控制标记文本的文本转语音处理。所述第一计算单元(208)针对各个字符串计算在标记文本中被分配给所述字符串的所述标签的特征量的方差。所述检测单元(207)检测被分配有第一标签的第一字符串作为包括要被修正的标签的第一候选项,所述第一标签具有不小于第一阈值的方差。所述展示单元(210)展示所述第一候选项。
Description
相关申请的交叉引用
本申请基于并要求于2011年9月26日提交的序列号为2011-209849的日本专利申请的优先权,通过引用将其全部内容并入本文中。
技术领域
本文中描述的实施例一般而言涉及标记(markup)辅助设备、方法和程序。
背景技术
手动标记整个大规模的、非结构化的文本数据项(例如电子书)是很困难的。使用机器学习技术,标记处理可被自动化。然而,很难无任何错误地执行自动标记处理。特别地,在文本转语音(text-to-speech)控制中使用的标签(tag)(韵律、感情、讲话者等)对于各个用户来说通常是不同的,且没有唯一正确的答案。因此,由于依赖于用户的主观观点和偏好而使判断会有波动,标记处理的负载变重。
发明内容
在一个方面中,提供一种标记辅助设备,其特征在于包括:获取单元,其被配置为获取各个标签的特征量,每个标签被用于控制标记文本的文本转语音处理,所述标记文本包括被分配有至少一个标签的字符串,所述特征量是用于定义指示标签间的相似程度的第一相似度的值;第一计算单元,其被配置为针对各个字符串,计算在标记文本中被分配给所述字符串的所述标签的特征量的方差;检测单元,其被配置为检测被分配有第一标签的第一字符串作为包括要被修正的标签的第一候选项,所述第一标签具有不小于第一阈值的方差;以及展示单元,其被配置为展示所述第一候选项。
在另一个方面中,提供一种标记辅助方法,其特征在于包括:获取各个标签的特征量,每个标签被用于控制标记文本的文本转语音处理,所述标记文本包括被分配有至少一个标签的字符串,所述特征量是用于定义指示标签间的相似程度的第一相似度的值;针对各个字符串,计算在标记文本中被分配给所述字符串的所述标签的特征量的方差;检测被分配有第一标签的第一字符串作为包括要被修正的标签的第一候选项,所述第一标签具有不小于第一阈值的方差;以及展示所述第一候选项。
在又一个方面中,提供一种非临时性(non-transitory)计算机可读介质,其包括计算机可执行指令,其特征在于,当由处理器执行时,所述指令使得所述处理器执行包括以下的方法:获取各个标签的特征量,每个标签被用于控制标记文本的文本转语音处理,所述标记文本包括被分配有至少一个标签的字符串,所述特征量是用于定义指示标签间的相似程度的第一相似度的值;针对各个字符串,计算在标记文本中被分配给所述字符串的所述标签的特征量的方差;检测被分配有第一标签的第一字符串作为包括要被修正的标签的第一候选项,所述第一标签具有不小于第一阈值的方差;以及展示所述第一候选项。
附图说明
图1是示例出电子书朗读(read)服务系统的示意图;
图2是示例出根据实施例的标记辅助设备的框图;
图3是示例出在共享标记文本存储部中存储的共享标记文本数据项的实例的表;
图4是示例出标记辅助系统的操作的流程图;
图5是示例出修正候选项(correction candidate)和标签候选项(tagcandidate)的展示(presentation)处理的流程图;
图6A示例出标签间距离的概念图;
图6B示例出标签和对应的特征量的表;
图7是示例出在方差(variation)计算之后共享标记文本数据项的实例的表;
图8是示例出用于各个句子ID的方差的实例的图;
图9是示例出修正信息展示单元的第一显示实例的图;
图10是示例出标签候选项展示处理的流程图;
图11是示例出当新用户分配(assign)标签时共享标记文本数据项的实例的表;
图12是示例出通过标签候选项计算单元的用户间距离计算处理的实例的表;
图13是示例出修正信息展示单元的第二显示实例的图;以及
图14是示例出管理服务器和用户终端的硬件设置的框图。
具体实施方式
在文档的自动文本转语音处理中,可使用语音合成标记语言(SSML)通过标记文本数据项来调整朗读时的音高、语速(pitch)、音量等。在这种情况下,标记处理意味着通过被称作标签的字符串而部分地围住文本数据项。标签是包括字符串的符号,被用于获得对由SSML代表的标记语言定义的句子的音高、语速、音量、说话风格、感情、讲话者等等的文本转语音控制。例如,在标记结果[因为你<重读>很聪明</重读>,你会一次通过入学考试。]([You’ll pass the entrance exam on your first try becauseyou’re<emphasis>smart</emphasis>.])中,被<重读>(<emphasis>)标签围住的部分[很聪明]([smart])被重读。注意被标签围住的字符串不限于单词,而可以是诸如短语和句子的字符串。该实施例的以下描述将在如下假设下给出:标签被分配给[句子],[句子]作为标签将被分配的基本单位。
此外,SSML具有朗读标记部分并同时改变其诸如对话风格、警告风格等的说话风格的功能,有感情(喜怒哀乐)地朗读标记部分的功能,以及在改变说话者(声音)的同时阅读标记部分的功能。利用这些功能,由于句子可被读得更生动,尝试应用于合成语音的自动朗读。
作为标记辅助方法,公知例如一种通过来自由手动地且部分地标记文本数据项以及自动地标记未知文本数据项而准备的学习语料库(corpus)的机器学习方法来学习模型的技术。更具体地,已知一种用于从文本数据项推定感情并自动分配感情标签的感情推定技术。除了文本转语音的标记处理,还已知用于标记每个单词的词性(part-of-speech)的词性标记处理、用于标记诸如标题、正文文本、广告等的文本结构的结构标记处理等等。而且,已知一种基于文本内容和布局相似性的辅助结构标记处理的技术。然而,利用上述现有技术,需要努力手动标记文本数据项。相反地,自动标记处理不能根据用户的主观观点和偏好来标记文本数据项。
一般而言,根据一个实施例,一种标记辅助设备包括获取单元、第一计算单元、检测单元和展示单元。所述获取单元被配置为获取各个标签的特征量,每个标签被用于控制标记文本的文本转语音处理,所述标记文本包括被分配有至少一个标签的字符串,所述特征量是用于定义指示标签间的相似程度的第一相似度的值。所述第一计算单元被配置为针对各个字符串,计算在标记文本中被分配给所述字符串的所述标签的特征量的方差。所述检测单元被配置为检测被分配有第一标签的第一字符串作为包括要被修正的标签的第一候选项,所述第一标签具有不小于第一阈值的方差。所述展示单元被配置为展示所述第一候选项。
下文中将参考附图描述根据本实施例的标记辅助设备、方法和程序。注意:由相同的参考标号指示的部件执行相同的操作,且根据需要,将省略对其的重复描述。
以下将参考图1描述根据本实施例的使用标记辅助设备的标记辅助系统的使用实例。
图1示例出作为标记辅助系统的实例而提供的电子书(e-book)朗读服务系统。
标记辅助系统100包括管理服务器101以及用户终端A102-1、B102-2和C102-3。
管理服务器101将标签分配给电子书151的句子以产生标记文档152(以下称为标记文本数据项152)。作为标签,在图1的实例中使用<愤怒>(<angry>)和<害怕>(<fear>)标签,其意味着被标签围住的句子用“愤怒”和“害怕”的感情来读出。注意:下文中,有标签的文本数据项被称为标记文本数据项。
用户终端A102-1到C102-3中的每一个将请求信号发送到管理服务器101以下载标记文本数据项152。管理服务器101接收该请求信号,并将标记文本数据项传递(deliver)到已发送了请求信号的用户终端102。
用户可基于通过自动推定分配的标签而进行控制以读出接收到的标记文本数据项。然而,通过自动推定分配的标签包括许多错误,且一个用户可能对由另一个用户分配的标签不满意,因为所述标签不满足他/她的偏好。因此,该用户可根据他/她的主观观点和偏好而修正不合意的标签,以产生修正后的标记文本数据项153。更具体地,用户终端A102-1将由管理服务器101分配的<害怕>标签改为<激动>(<excited>)标签,且用户终端C102-3将<愤怒>改为<羞愧>(<shame>)标签。
修正后的标记文本数据项153从用户终端102被发送到管理服务器101,并被其他用户共享。在这种情况下,“共享”表示允许用户浏览并下载由另一个用户标记的标记文本数据项,还表示在分配标签时和在展示标记处理的修正候选项时,该标记文本数据项被用作基础数据。
以下将参考图2示出的框图描述根据本实施例的标记辅助设备。
根据本实施例的标记辅助设备200包括共享标记文本存储部201、标记文本共享单元202、标签存储部203、标签分配单元204、特征量获取单元205、标记文本转换单元206、修正候选项检测单元207、标签方差计算单元208、标签候选项计算单元209和修正信息显示器210。
共享标记文本存储部201存储通过将默认标签分配给文本数据项而产生的标记文本数据项以及其标签由用户结合书ID分配并修正的那些文本数据项。默认标签是首先由标记辅助设备200自动分配给文本数据项的那些标签。书ID是例如唯一地赋给书名的数值。存储在共享标记文本存储部201中的标记文本数据项在下文中也被称为共享标记文本数据项。稍后将参考图3描述共享标记文本数据项。
标记文本共享单元202管理标记文本数据项。例如,标记文本共享单元202提取存储在共享标记文本存储部201中的标记文本数据项以分配新标签,并将新的标记文本数据项存储在共享标记文本存储部201中。
标签存储部203存储将被分配给文本数据项的多种标签。例如,存储由SSML定义的标签,即,控制音高、语速和音量的标签以及指定感情、说话风格和讲话者的标签。注意,在该实施例中,只要满足可定义标签间距离(也被称为标签间相似度或第一相似度)的条件,就不特别地限制标签的种类。下面,该实施例将以感情标签为例。
标签分配单元204经由标记文本共享单元202而接收共享标记文本数据项,并从标签存储部203接收标签。标签分配单元204参考共享标记文本数据项而将标签分配给文本数据项。
特征量获取单元205接收来自标签存储部203的标签,且为各个标签获取与标签对应的用于定义标签间距离(标签间相似度)的特征量。特征量是例如多维向量。多维向量间的距离可由欧几里得距离(Euclidiandistance)或余弦距离定义。注意,作为用于各个标签的特征量,特征量获取单元205可具有预先定义标签与特征量之间的关系的表,且可根据需要参考该表。或者,特征量获取单元205可根据需要参考外部表。并且,特征量获取单元205可使用特定函数计算特征量。
标记文本转换单元206分别从标签分配单元204接收标记文本数据项和从特征量获取单元205接收特征量,并通过用特征量代替标记文本数据项中的各个标签而将标记文本数据项转换为特征量时间序列数据项。由于标记文本转换单元206将标记文本数据项转换为时间序列数据项,也可考虑标签间距离而定义标签的方差和用户间距离(也被称为第二相似度)。
修正候选项检测单元207分别从标记文本转换单元206接收特征量时间序列数据项、从标记文本共享单元202接收标记文本数据项、以及从(稍后将描述的)标签方差计算单元208接收标签的方差。修正候选项检测单元207提取这样的部分:其中用户更可能基于特征量时间序列数据项而修正作为修正候选项的标签。
标签方差计算单元208从修正候选项检测单元207接收特征量时间序列数据项,并计算标签的方差。
标签候选项计算单元209从修正候选项检测单元207接收标记文本数据项、特征量时间序列数据项以及修正候选项,计算将在修正候选项中被代替的标签,并选择指示新标签候选项的标签候选项。
修正信息显示器210从标签候选项计算单元209接收候选项标签和标记文本数据项,并展示文本数据项的哪部分的标签将被修正以及哪个标签将被分配给用户。
以下将参考图3描述存储在共享标记文本存储部201中的共享标记文本数据项的实例。
如图3所示,文本数据项被分为句子,且句子ID 301、默认标签302、用户标签303以及句子304作为彼此关联的共享标记文本数据项而被存储在表中。在这种情况下,作为通过机器学习而自动推定的结果分配的默认标签302以及当用户A到C将其喜好的标签分配给各个句子ID 301时而获得的用户标签303与句子304关联。默认标签302可被处理为一个用户。更具体地,对于句子ID 301“7”的句子304[你在开玩笑吧?]([Are youkidding?]),“愤怒(anger)”作为默认标签302被分配,“高兴(happy)”、“羞愧(shame)”和“愤怒”作为用户标签303而分别由用户A、B和C分配。在朗读时,用所分配的标签的感情来读出每个句子。
注意,可独立地管理电子书的文本数据项和标签。句子被用作标记基本单位。然而,可使用诸如字符、单词、段落等的另一单位作为基准来执行标记处理。
对于句子ID“7”的句子[你在开玩笑吧?],“愤怒”更有可能(morelikely)被感觉为是该句子中的感情。然而,由于该句子是对之前的句子(句子ID“6”[因为你很聪明,你会一次通过入学考试。])中的赞美的回答,假定有诸如“高兴”和“羞愧”的其他解释,且一些用户(用户A和用户B)将该句子标记为其他解释。以这种方式,诸如感情标签的标签不能被唯一地确定,而且根据用户的主观观点和偏好,可获得各种解释。而且,在文本转语音处理中使用的其他标签(音高、语速、音量、说话风格、说话者等)具有类似的性质。
以下将参考图4中示例的流程图描述使用标记辅助设备的标记辅助系统的操作。
假设共享标记文本存储部201、标记文本共享单元202、标签存储部203以及标签分配单元204被包括在图1示出的管理服务器101中。而且,假设特征量获取单元205、标记文本转换单元206、修正候选项检测单元207、标签方差计算单元208、标签候选项计算单元209以及修正信息显示器209被包括在图1示出的每个用户终端102中。注意,包括在标记辅助设备200中的各个单元和存储部可被包括在管理服务器101或每个用户终端102中。
在步骤S401,标签分配单元204将默认标签分配给文本数据项。作为默认标签分配技术,可以使用例如通过利用现有的机器学习而自动推定的技术、分配来自共享标记文本数据项的最大数目的标签的技术以及分配来自共享标记文本数据的被其他用户最多支持(confirm)的标签的技术。
在步骤S402,管理服务器101将被分配有默认标签的标记文本数据项传递给用户终端102。
在步骤S403,在用户终端102中,修正候选项检测单元207检测出修正候选项,该修正候选项是来自标记文本数据项的、其标签将被修正的句子,且标签候选项计算单元209在修正标签时计算标签候选项。此后,修正信息显示器210向用户显示修正候选项和标签候选项。
在步骤S404,用户参考修正候选项和标签候选项而编辑标签(例如,他或她将标签添加到修正候选项或在修正候选项中修正标签)。
在步骤S405,用户终端102将其中标签被添加或修正的标记文本数据项发送到管理服务器101。管理服务器101收集从用户终端102发送来的修正后的标记文本数据项,并将其存储在共享标记文本存储部201中。当大量的用户编辑(添加和修正)标记文本数据项的标签时,可以改善使用共享标记文本数据项的默认标签的分配精度。当默认标签的分配精度被改善时,用户修正标签的部分的数目减少,由此允许更有效的标记处理。
以下将参考图5中示例的流程图描述步骤S403中的标签候选项展示处理。
在步骤S501,特征量获取单元205获取用于共享标记文本数据项中的各个标签的特征量。
在步骤S502,标记文本转换单元206将共享标记文本数据项的标签转换为在步骤S501中定义的特征量,由此获得特征量时间序列数据项。
在步骤S503,标签方差计算单元208计算用于各个标签分配基本单位的方差。注意,如果不能定义由用户分配的标签的变异度(variationdegree),本实施例不限于方差。在这种情况下,“方差”被用作这样的术语,其意味着方差以及等效于方差的值。
在步骤S504,修正候选项检测单元207检测出其方差不小于阈值的标签作为更有可能被修正的修正候选项,且修正信息显示器210显示修正候选项。
在步骤S505,标签候选项计算单元209确定用于每个修正候选项的将被展示的标签候选项,且修正信息显示器210向用户展示标签候选项。
以下将参考图6A和6B描述在步骤S501中特征量获取单元205中的特征量获取处理。
图6A示例出标签间距离的概念图,图6B示例出指示标签和对应的坐标值的表。
以下将描述更有可能被修正的标签的特征。假设给出在图3中示出的共享标记文本组。当所有的用户分配完全相同的标签“轻松(ease)”时,或者当默认标签保持不变且如同在句子ID“1”中一样没有差异时,该标签具有高可靠性,且不太可能(unlikely)被新用户修正。另一方面,当用户像在句子ID“7”中一样分配各种标签时,考虑根据用户的主观观点和偏好而分配不同的标签。具有各种各样标签的句子的标签更有可能被新用户修正。然而,尽管像在句子ID“22”和“23”中一样分配不同的标签,但当它们表达具有高相似度的感情(例如,“欢喜(like)”和“轻松”,以及“高兴”和“欢喜”)时,带有感情的朗读效果彼此相对接近,且这些标签不太可能被新用户修正。
如上所述,由于与很大程度上不同的朗读效果和大差异对应的标签更有可能被修正,因此这些标签作为修正候选项被展示给用户。当被分配的标签没有差异时,或者当具有更接近的朗读效果的各种标签被分配时,这样的标签不太可能被修正,且不会作为修正候选项被展示给用户。以这种方式,通过缩小修正候选项,可大大提高用户的标记修正效率。
在图6A中示例出其中标签被布置在二维坐标平面601上的实例。“欢喜”、“轻松”、“高兴”、“愤怒”、“羞愧”等分别是感情标签。在该布置的情况下,具有相似朗读效果的标签被布置在较靠近的位置。例如,图6A表示出“欢喜”和“轻松”具有小的距离(高相似度),而“欢喜”和“愤怒”具有大的距离(低相似度)。当标签以这种方式被布置时,其被表示为二维向量的特征量,且标签间距离可被计算为例如欧几里得距离。
图6A和6B示例出仅有感情标签的实例。然而,可使用诸如音高、语速、音量、说话风格、讲话者等的任意标签。例如,在讲话者的情况下,“男声”和“女声”可具有大的距离(低相似度),且标签间距离可由例如通过比较语音谱而计算距离的方法来定义。在该实施例中,这种标签间距离的定义是预先固定的。或者,可准备允许用户自由地改变二维坐标平面601上的标签布置和距离定义的界面。例如,用户可经由该界面向特征量获取单元205输入指令信号,且特征量获取单元205可根据指令信号而改变标签布置和距离定义。此外,特征量由二维向量表示,但是,只要标签间距离可被定义,对特征量没有特别限制。
图6B示例出表602,其以原点为基准使第一轴604和第二轴605的坐标值与感情标签603相关联。在这种情况下,第一轴(横轴)604表示高兴程度的量值,而第二轴(纵轴)605表示觉醒(arousal)程度的量值,但是不需要向各个轴分配含义(meanings)。
以下将参考图7描述其中标签被特征量代替的共享标记文本数据项的实例。
在图7示例出的共享标记文本数据项的表中,图3中示例的共享标记文本数据项的标签被转换为特征量701,且特征量的方差702被分别与其关联而加入。更具体地,句子ID 301“7”的默认标签302的特征量701[(-0.5,0.5)]、分别由用户A、B和C分配的特征量[(0.9,0.2)]、[(-1.0,-0.1)]和[(-0.5,0.5)]、方差702[0.75]以及句子304[你在开玩笑吧?]彼此关联。以这种方式,标记文本数据项可被表示为特征量时间序列数据项。
以下将描述步骤S503中标签方差计算单元208的方差计算方法。
在标签方差计算中,在该实施例中,针对图7中的特征量的各个维度计算方差,然后将这些方差相加。例如,可像式(1)那样计算句子ID“7”的句子的方差:
当通过特征量的矩阵表示被分配的标签时,得到:
方差=sum(diag(cov(A)))
其中sum()是求和的函数,diag()是取对角线元素的函数,cov()是计算方差-协方差矩阵的函数。利用同样的方法,对与所有的句子关联的特征量计算方差。
以下将参考图8描述在步骤S504中校准候选项检测单元207的检测处理。
图8是示例出与图7中的句子ID 301的项目和方差702有关的用于各个句子ID的方差的图,其中横轴标示句子ID 301,纵轴标示方差702。从该图中,可识别出大的标签差异和小的标签差异。注意,由于也考虑标签间距离而计算方差值,因此具有相似朗读效果的标签之间的方差很小。修正候选项检测单元207选择其方差不小于阈值的句子作为修正候选项。
更具体地,当像句子ID“7”那样分配具有诸如“愤怒”、“高兴”和“羞愧”那样的很大程度上不同的朗读效果的标签时,即,当标签间距离大时(相似度低)时,方差取大的值。另一方面,当像句子ID“1”中那样所有的用户分配相同的标签“轻松”时,以及当分配的标签不同但却具有相似的朗读效果(像句子ID“22”和“23”中的“欢喜”、“轻松”和“高兴”那样)时,即,当标签间距离小(相似度高)时,方差取小的值。因此,当方差大时,基于用于每个句子ID的该方差而将修正候选项选择为因依赖于用户的主观观点和偏好分配的不同的标签而促使用户对其进行修正的位置。
注意,阈值可以取预定值或可由用户改变的值。可使用以方差的降序将预定数目的句子选择为修正候选项的方法。
以下将参考图9描述在步骤S604中修正信息显示器210的显示实例。
图9示例出用于显示修正候选项的用户界面的一个实例。假设这样的情况:其中用户在阅读文本901的同时听取与文本901有关的朗读声音。
当在朗读期间发现修正候选项时,通过高亮显示(highlight)修正候选项而显示弹出框903,由此向用户展示另一个朗读候选项的存在。更具体地,作为在标签方差计算单元208中的计算的结果,其方差不小于阈值的修正候选项902(句子ID“7”[你在开玩笑吧?])被高亮显示,由此通过作为弹出框903显示[还有另一种可用的朗读方式。你想要展示候选项吗?]([Another reading manner is available.Do you want to present acandidate?])而促使用户选择另一个候选项。作为另一种方法,可以在朗读前作为列表修正候选项,且用户可预先一次性修正标签。注意,图9示例出其中修正候选项作为弹出框而被显示的显示实例。或者,修正候选项可被显示在独立的视窗上,且只要用户可识别出修正候选项,可采用任何其他方法。
以下将参考图10更详细描述步骤S505中的标签候选项展示处理。以下将假设这样的情况:其中新用户创建独特的标记文本数据项,同时如图7所示,包括默认标签的四个用户的标记文本数据项被登记或共享。
在步骤S1001,标签候选项计算单元209从存储在共享标记文本存储部201中的共享标记文本数据项收集至此(so far)被所有用户修正的标签和修正候选项的信息项。
在步骤S1002,标签候选项计算单元209基于与新用户的相似度,搜索这样的用户,该用户修正了标签而具有与新用户相似的倾向。在这种情况下,作为与新用户的相似度计算的实例,以与标签间距离相同的方式计算用户间距离。首先,为各个句子计算标签间的欧几里得距离,且为所有句子计算的欧几里得距离被相加。可选择其和不大于阈值的用户作为与新用户具有高相似度的用户。以下将参考图12描述实际的实例。
在步骤S1003,基于由与新用户具有高相似度的用户分配的标签而向新用户展示标签候选项。
以下将参考图11描述当新用户分配标签时共享标记文本数据项的实例。
在图11示出的表中,新用户1101的标签列被添加到图7中示例的表,且该表被存储在共享标记文本存储部201中。新用户已向作为已被他或她自己修正的修正候选项1102的句子ID为“7”、“8”、“10”、“11”和“13”的句子分配了标签,并向作为下一修正候选项1103的句子ID为“15”的句子分配标签。
标签候选项计算单元209收集新用户向其分配了标签的句子ID为“7”、“8”、“10”、“11”和“13”的句子的标签的5个特征量(0.9,0.2)、(0.2,0.9)、(-0.9,0.1)、(-0.9,0.1)和(-0.9,0.8),作为至此由新用户收集了的标签和修正候选项的信息项。
以下将参考图12描述步骤S1002中的用户间距离计算方法。
图12示例出通过提取由新用户修正过的句子ID的标签的特征量而准备的表,以及同样的句子ID的默认标签和由用户A到C分配的标签的特征量。基于前述五个修正候选项的句子ID,计算与新用户的距离。更具体地,新用户与用户B之间的欧几里得距离1201由下式表示:
当通过同样的方法计算新用户1101与其他用户之间的欧几里得距离1201时,获得与默认标签的距离(7.75),与用户A的距离(1.36),与用户B的距离(5.82)以及与用户C的距离(3.90),如图12所示。
因此,就与新用户1101的距离而言,用户A、C和B的标记以及默认标签按降序具有更高的与新用户1101的相似度。即,判定用户A具有与新用户1101最接近的标记倾向,且具有与新用户1101相似的主观观点和偏好。
注意在前述实例中,限制于其标签经过新用户修正的句子而计算距离。或者,可以基于标记文本数据项中的所有句子计算用户间距离。通过这种方法计算的用户间距离反映了标签间距离。
以下将参考图13描述修正信息显示器210对标签候选项的展示实例。
作为标签候选项展示方法,例如,参考与新用户的距离最近的用户的标记文本数据项,在对应的句子中由该用户分配的标签被原封不动地(intact)展示。更具体地,由于在图12中用户A与新用户的距离最近,“悲伤(sorrow)”(特征量:-0.9,-0.2)被展示为将向新用户的句子ID“15”分配的标签候选项。此外,如图13所示例的,可以使用弹出框1301显示所分配的标签的比例。此外,可依次选择与新用户距离较近的预定数目的用户,且被最多分配给文档的最大数目的那些的标签可被展示,或可以依次被显示为排名(ranking)。
当有多个标签候选项时,标签可被合并而产生新的标签。例如,在通过图13示出的弹出框1301而展示标签候选项的情况下,当“高兴”和“悲伤”分别以50%的比例被展示时,它们将由用户捕捉的感情“喜极而泣(weeping for joy)”表达既“高兴”又“悲伤”。在这种情况下,可通过使用诸如感情渐变(emotion morphing)的技术以相应的比例(在这种情况下是50%)合并“高兴”和“悲伤”这两种感情,来完成朗读。
当用前述方法定义用户间距离时,可检测出不恰当地标记文本数据项(例如,通过随机标记文本数据项而不考虑主题)的用户。使用在维持距离的同时在二维平面上映射(map)用户的多维标度法(scaling method),不恰当地标记文本数据项的用户被映射在离群位置(outlier position)。被映射到离群位置的用户被排除在修正候选项和标签候选项计算对象之外,由此更加改善了标记效率和用户间距离精度,允许采取合适的措施。
以下将参考图14中示例的框图描述根据本实施例的管理服务器和用户终端的硬件设置。
图14是示例出本实施例的管理服务器101和用户终端102的硬件设置的框图。管理服务器101和用户用短102中的每一者包括中央处理单元(CPU)1401、只读存储器(ROM)1402、随机存取存储器(RAM)1403、硬盘驱动器(HDD)1404、显示器1405、收发器单元1406和操作单元1407,其经由总线1408彼此连接。
CPU 1401是控制标记辅助设备200的整体处理的处理装置。
ROM 1402存储实现由CPU执行的各种处理的程序等。例如,图2中示例出的单元作为程序存储在ROM中。
RAM 1403存储由CPU执行的各种处理所需的数据。
HDD 1404存储大尺寸数据,例如电子书的文本数据项、共享标记文本数据项、标签等。
显示器1405显示文本数据项、标签候选项等。
收发器单元1406发送和接收电子书和标记文本数据项。
操作单元1407允许用户针对所展示的信息而输入指令。
注意,由本实施例的标记辅助设备执行的程序具有包括前述单元(标记文本共享单元202、标签分配单元204、特征量获取单元205、标记文本转换单元206、修正候选项检测单元207、标签方差计算单元208、标签候选项计算单元209以及修正信息显示器210)的单元配置。作为实际的硬件,当CPU 1401从ROM 1402中读出各种程序并执行所读出的程序时,前述单元被加载到RAM 1403,由此在RAM上产生前述功能。
本实施例采用服务器-客户端配置。在该配置中,可由服务器或客户端执行图2中示例出的单元。此外,该实施例将电子书示范为文本数据项,将感情标签示范为标签。然而,本实施例不限于此,且可被施加到一般的文本数据项和允许定义距离的任意标签。
根据本实施例的标记辅助设备,由于针对诸如电子书的大尺寸文本数据项基于标签间相似度而展示用户将修正标签的位置,因此将被修正的候选项可被缩窄,由此大大改善了标记处理效率。而且,即使当诸如感情标签的标签根据用户的主观观点和偏好而波动时,特定的用户也可参考与他或她自己有相似的标记倾向的用户的标签,由此允许高效的标记处理。
实施例的流程图示例了根据实施例的方法和系统。将理解,可通过计算机程序指令实现流程图示例的每个框以及流程图示例中的框的组合。这些计算机程序指令可被加载到计算机或其他可编程设备以产生机器,以便在计算机或其他可编程设备上执行的指令产生用于实现流程图框中规定的功能的装置。这些计算机程序指令也可被存储在计算机可读的存储器上,该存储器可指示计算机或其他可编程设备以特定方式起作用,以便存储在计算机可读的存储器上的指令产生制品(article of manufacture),其包括实现流程图框中规定的功能的指令装置。计算机程序指令也可被加载到计算机或其他可编程设备以使得一系列操作步骤在计算机或其他可编程设备上被执行,以产生计算机可编程设备,该计算机可编程设备提供用于实现在流程图框中规定的功能的步骤。
尽管描述了特定实施例,但这些实施例仅通过举例的方式给出,且不旨在定义本发明的范围。实际上,本文中描述的新颖实施例可以各种其他形式被实施;此外,可做出对本文中描述的实施例的形式上的各种省略、替换和改变而不脱离本发明的精神。所附权利要求书及其等价物旨在涵盖这样的形式或修改,且落在本发明的范围和精神内。
Claims (18)
1.一种标记辅助设备,其特征在于包括:
获取单元,其被配置为获取各个标签的特征量,每个标签被用于控制标记文本的文本转语音处理,所述标记文本包括被分配有至少一个标签的字符串,所述特征量是用于定义指示标签间的相似程度的第一相似度的值;
第一计算单元,其被配置为针对各个字符串,计算在标记文本中被分配给所述字符串的所述标签的特征量的方差;
检测单元,其被配置为检测被分配有第一标签的第一字符串作为包括要被修正的标签的第一候选项,所述第一标签具有不小于第一阈值的方差;以及
展示单元,其被配置为展示所述第一候选项。
2.根据权利要求1所述的设备,其特征在于还包括第二计算单元,所述第二计算单元被配置为基于由各个用户分配给每个字符串的标签的所述特征量而计算指示所述用户间的相似程度的第二相似度,并基于由其第二相似度不小于第二阈值的第一用户分配的标签而选择第二候选项,所述第二候选项指示将被分配给所述第一候选项的标签的候选项,
其中展示单元还展示所述第二候选项。
3.根据权利要求1所述的设备,其特征在于还包括标签分配单元,所述标签分配单元被配置为基于由至少一个用户编辑的所述标记文本而将所述标签分配给所述字符串。
4.根据权利要求1所述的设备,其特征在于,所述获取单元根据指令信号而改变所述第一相似度。
5.根据权利要求2所述的设备,其特征在于,所述展示单元展示彼此关联的所述第二候选项和所述第一候选项。
6.根据权利要求2所述的设备,其特征在于,所述第二计算单元通过合并多个第二候选项而生成新标签。
7.一种标记辅助方法,其特征在于包括:
获取各个标签的特征量,每个标签被用于控制标记文本的文本转语音处理,所述标记文本包括被分配有至少一个标签的字符串,所述特征量是用于定义指示标签间的相似程度的第一相似度的值;
针对各个字符串,计算在标记文本中被分配给所述字符串的所述标签的特征量的方差;
检测被分配有第一标签的第一字符串作为包括要被修正的标签的第一候选项,所述第一标签具有不小于第一阈值的方差;以及
展示所述第一候选项。
8.根据权利要求7所述的方法,其特征在于还包括基于由各个用户分配给每个字符串的标签的所述特征量而计算指示所述用户间的相似程度的第二相似度,并基于由其第二相似度不小于第二阈值的第一用户分配的标签而选择第二候选项,所述第二候选项指示将被分配给所述第一候选项的标签的候选项,
其中所述展示所述第一候选项还展示所述第二候选项。
9.根据权利要求7所述的方法,其特征在于还包括基于由至少一个用户编辑的所述标记文本而将所述标签分配给所述字符串。
10.根据权利要求7所述的方法,其特征在于,所述获取所述特征量根据指令信号而改变所述第一相似度。
11.根据权利要求8所述的方法,其特征在于,所述展示所述第一候选项展示彼此关联的所述第二候选项和所述第一候选项。
12.根据权利要求8所述的方法,其特征在于,所述计算所述第二相似度通过合并多个第二候选项而生成新标签。
13.一种非临时性计算机可读介质,其包括计算机可执行指令,其特征在于,当由处理器执行时,所述指令使得所述处理器执行包括以下的方法:
获取各个标签的特征量,每个标签被用于控制标记文本的文本转语音处理,所述标记文本包括被分配有至少一个标签的字符串,所述特征量是用于定义指示标签间的相似程度的第一相似度的值;
针对各个字符串,计算在标记文本中被分配给所述字符串的所述标签的特征量的方差;
检测被分配有第一标签的第一字符串作为包括要被修正的标签的第一候选项,所述第一标签具有不小于第一阈值的方差;以及
展示所述第一候选项。
14.根据权利要求13所述的计算机可读介质,其特征在于还包括基于由各个用户分配给每个字符串的标签的所述特征量而计算指示所述用户间的相似程度的第二相似度,并基于由其第二相似度不小于第二阈值的第一用户分配的标签而选择第二候选项,所述第二候选项指示将被分配给所述第一候选项的标签的候选项,
其中所述展示所述第一候选项还展示所述第二候选项。
15.根据权利要求13所述的计算机可读介质,其特征在于还包括基于由至少一个用户编辑的所述标记文本而将所述标签分配给所述字符串。
16.根据权利要求13所述的计算机可读介质,其特征在于,所述获取所述特征量根据指令信号而改变所述第一相似度。
17.根据权利要求14所述的计算机可读介质,其特征在于,所述展示所述第一候选项展示彼此关联的所述第二候选项和所述第一候选项。
18.根据权利要求14所述的计算机可读介质,其特征在于,所述计算所述第二相似度通过合并多个第二候选项而生成新标签。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011209849A JP5596649B2 (ja) | 2011-09-26 | 2011-09-26 | 文書マークアップ支援装置、方法、及びプログラム |
JP209849/2011 | 2011-09-26 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103020019A true CN103020019A (zh) | 2013-04-03 |
Family
ID=47912251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012103640392A Pending CN103020019A (zh) | 2011-09-26 | 2012-09-26 | 标记辅助设备、方法和程序 |
Country Status (3)
Country | Link |
---|---|
US (2) | US8965769B2 (zh) |
JP (1) | JP5596649B2 (zh) |
CN (1) | CN103020019A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105096932A (zh) * | 2015-07-14 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 有声读物的语音合成方法和装置 |
CN105741829A (zh) * | 2016-04-28 | 2016-07-06 | 玉环看知信息科技有限公司 | 数据转换方法及装置 |
CN110597980A (zh) * | 2019-09-12 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置以及计算机可读存储介质 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130091150A1 (en) * | 2010-06-30 | 2013-04-11 | Jian-Ming Jin | Determiining similarity between elements of an electronic document |
US20140297285A1 (en) * | 2013-03-28 | 2014-10-02 | Tencent Technology (Shenzhen) Company Limited | Automatic page content reading-aloud method and device thereof |
EP2922056A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation |
EP2922054A1 (en) * | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation |
EP2922055A1 (en) * | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information |
KR20160017954A (ko) * | 2014-08-07 | 2016-02-17 | 삼성전자주식회사 | 전자장치 및 전자장치의 전송 제어 방법 |
JP6415929B2 (ja) * | 2014-10-30 | 2018-10-31 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
US10311876B2 (en) * | 2017-02-14 | 2019-06-04 | Google Llc | Server side hotwording |
US10449440B2 (en) | 2017-06-30 | 2019-10-22 | Electronic Arts Inc. | Interactive voice-controlled companion application for a video game |
US10621317B1 (en) | 2017-09-14 | 2020-04-14 | Electronic Arts Inc. | Audio-based device authentication system |
US10565994B2 (en) * | 2017-11-30 | 2020-02-18 | General Electric Company | Intelligent human-machine conversation framework with speech-to-text and text-to-speech |
US10600408B1 (en) * | 2018-03-23 | 2020-03-24 | Amazon Technologies, Inc. | Content output management based on speech quality |
KR101983517B1 (ko) * | 2018-11-30 | 2019-05-29 | 한국과학기술원 | 주어진 문서가 독자에게 보다 높은 신뢰를 받을 수 있도록 하는 문서 신뢰도 증강 방법 및 그 시스템 |
US11393471B1 (en) * | 2020-03-30 | 2022-07-19 | Amazon Technologies, Inc. | Multi-device output management based on speech characteristics |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002245068A (ja) * | 2001-02-09 | 2002-08-30 | Internatl Business Mach Corp <Ibm> | 情報処理方法、情報処理システム、プログラムおよび記録媒体 |
US20030009338A1 (en) * | 2000-09-05 | 2003-01-09 | Kochanski Gregory P. | Methods and apparatus for text to speech processing using language independent prosody markup |
US20050096909A1 (en) * | 2003-10-29 | 2005-05-05 | Raimo Bakis | Systems and methods for expressive text-to-speech |
CN101116073A (zh) * | 2005-12-05 | 2008-01-30 | 索尼株式会社 | 信息处理设备、信息处理方法及程序 |
CN102163208A (zh) * | 2010-02-15 | 2011-08-24 | 索尼公司 | 信息处理装置、方法和程序 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05113795A (ja) * | 1991-05-31 | 1993-05-07 | Oki Electric Ind Co Ltd | 音声合成装置 |
JPH0795303A (ja) * | 1993-09-22 | 1995-04-07 | N T T Data Tsushin Kk | 文書データの音声出力方式 |
US7062437B2 (en) * | 2001-02-13 | 2006-06-13 | International Business Machines Corporation | Audio renderings for expressing non-audio nuances |
JP2003280680A (ja) * | 2002-03-25 | 2003-10-02 | Canon Inc | 音声合成装置およびその方法およびそのプログラムならびに記憶媒体 |
JP2003295882A (ja) * | 2002-04-02 | 2003-10-15 | Canon Inc | 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム |
JP4575798B2 (ja) * | 2005-02-01 | 2010-11-04 | 日本放送協会 | 音声合成装置及び音声合成プログラム |
US8095366B2 (en) * | 2006-03-27 | 2012-01-10 | Microsoft Corporation | Fonts with feelings |
JP2008256942A (ja) * | 2007-04-04 | 2008-10-23 | Toshiba Corp | 音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法 |
-
2011
- 2011-09-26 JP JP2011209849A patent/JP5596649B2/ja not_active Expired - Fee Related
-
2012
- 2012-09-24 US US13/625,138 patent/US8965769B2/en not_active Expired - Fee Related
- 2012-09-26 CN CN2012103640392A patent/CN103020019A/zh active Pending
-
2015
- 2015-01-15 US US14/597,365 patent/US9626338B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030009338A1 (en) * | 2000-09-05 | 2003-01-09 | Kochanski Gregory P. | Methods and apparatus for text to speech processing using language independent prosody markup |
JP2002245068A (ja) * | 2001-02-09 | 2002-08-30 | Internatl Business Mach Corp <Ibm> | 情報処理方法、情報処理システム、プログラムおよび記録媒体 |
US20050096909A1 (en) * | 2003-10-29 | 2005-05-05 | Raimo Bakis | Systems and methods for expressive text-to-speech |
CN101116073A (zh) * | 2005-12-05 | 2008-01-30 | 索尼株式会社 | 信息处理设备、信息处理方法及程序 |
CN102163208A (zh) * | 2010-02-15 | 2011-08-24 | 索尼公司 | 信息处理装置、方法和程序 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105096932A (zh) * | 2015-07-14 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 有声读物的语音合成方法和装置 |
CN105741829A (zh) * | 2016-04-28 | 2016-07-06 | 玉环看知信息科技有限公司 | 数据转换方法及装置 |
CN110597980A (zh) * | 2019-09-12 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置以及计算机可读存储介质 |
CN110597980B (zh) * | 2019-09-12 | 2021-04-30 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置以及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US9626338B2 (en) | 2017-04-18 |
US20130080175A1 (en) | 2013-03-28 |
JP5596649B2 (ja) | 2014-09-24 |
US20150128026A1 (en) | 2015-05-07 |
US8965769B2 (en) | 2015-02-24 |
JP2013073275A (ja) | 2013-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103020019A (zh) | 标记辅助设备、方法和程序 | |
US9418654B1 (en) | Presentation of written works based on character identities and attributes | |
CN104281699B (zh) | 搜索推荐方法及装置 | |
Abdul‐Rahman et al. | Rule‐based visual mappings–with a case study on poetry visualization | |
US20140351228A1 (en) | Dialog system, redundant message removal method and redundant message removal program | |
Silva | Saudade–a key Portuguese emotion | |
JP6851894B2 (ja) | 対話システム、対話方法及び対話プログラム | |
JP6462970B1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
CN114827752B (zh) | 视频生成方法、视频生成系统、电子设备及存储介质 | |
CN105488096B (zh) | 动态概要生成器 | |
JP6605410B2 (ja) | 感情要因推定支援装置、感情要因推定支援方法及び感情要因推定支援用プログラム | |
CN111737961B (zh) | 一种故事生成的方法、装置、计算机设备和介质 | |
Renouf et al. | Corpus linguistics: refinements and reassessments | |
Bach | Sensorial discourse and corpus in the digital humanities era: The example of the wine language | |
CN110008807A (zh) | 一种合同内容识别模型的训练方法、装置及设备 | |
Khan et al. | Improving user experience and communication of digitally enhanced advanced services (DEAS) offers in manufacturing sector | |
CN110457691B (zh) | 基于剧本角色的情感曲线分析方法和装置 | |
EP3471049A1 (en) | Information processing device, information processing method, and program | |
de Almeida et al. | Changing morphological structures: The effect of sentence context on the interpretation of structurally ambiguous English trimorphemic words | |
CN107016889A (zh) | 为问题提供背景 | |
CN110704581A (zh) | 计算机执行的文本情感分析方法及装置 | |
Yavaş | Sonority and the acquisition of/s/clusters in children with phonological disorders | |
US20190236979A1 (en) | Systems, apparatuses, and methods for language instruction | |
Ji et al. | Design and Application of Mapping Model for Font Recommendation System Based on Contents Emotion Analysis | |
Robins et al. | Learning about writing begins informally |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20161102 |
|
C20 | Patent right or utility model deemed to be abandoned or is abandoned |