CN110176231B - 音响输出系统、音响输出方法及存储介质 - Google Patents

音响输出系统、音响输出方法及存储介质 Download PDF

Info

Publication number
CN110176231B
CN110176231B CN201910119814.XA CN201910119814A CN110176231B CN 110176231 B CN110176231 B CN 110176231B CN 201910119814 A CN201910119814 A CN 201910119814A CN 110176231 B CN110176231 B CN 110176231B
Authority
CN
China
Prior art keywords
parameter
output
data
identification information
virtual audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910119814.XA
Other languages
English (en)
Other versions
CN110176231A (zh
Inventor
山田有纪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Publication of CN110176231A publication Critical patent/CN110176231A/zh
Application granted granted Critical
Publication of CN110176231B publication Critical patent/CN110176231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

实施方式关于音响输出系统、音响输出方法及存储介质。实施方式的音响输出系统具备:受理部,受理包含语音的语音数据或包含声音的声音数据作为输出对象数据;内容识别信息生成部,生成识别根据上述输出对象数据确定的内容的内容识别信息;状态识别信息生成部,根据传感器数据及输入数据的至少一方,生成识别状态的状态识别信息;参数信息生成部,根据上述内容识别信息和上述状态识别信息,生成在上述输出对象数据的输出控制中使用的参数信息;以及输出控制部,使用上述参数信息,进行上述输出对象数据的音响的输出控制。

Description

音响输出系统、音响输出方法及存储介质
本申请基于2018年2月19日提出的日本专利申请第2018-026951号主张优先权,这里引用其全部内容。
技术领域
本发明的实施方式涉及音响输出系统、音响输出方法及存储介质。
背景技术
以往以来,已知有通过制作虚拟的音像来再现声音及语音的临场感的虚拟音像技术。例如,以往以来已知有用传感器检测用户的头的运动,并通过使虚拟音像滤波器的参数动态地变化,能够进行即使用户的头运动也总是从一定的方向听到声音那样的音响输出的语音导引系统。
发明内容
在以往的技术中,由于通过根据各自的不同目的而被认为最优的硬件及软件的结构构建音响输出系统,所以虚拟音像的输出效果的控制范围及控制内容等受在系统构建时设定的输入输出环境限制。因此,在以往的技术中,例如不能使用通用的虚拟音像中间件通过参数调整来实现与各用途对应的音响输出系统。此外,例如即使用户在中途想要变更音响输出系统的使用方式,也不能通过设定变更来对应,需要每次都将音响输出系统整体再构建。
实施方式的音响输出系统具备:受理部,受理包含语音的语音数据或包含声音的声音数据作为输出对象数据;内容识别信息生成部,生成识别根据上述输出对象数据确定的内容的内容识别信息;状态识别信息生成部,根据传感器数据及输入数据的至少一方,生成识别状态的状态识别信息;参数信息生成部,根据上述内容识别信息和上述状态识别信息,生成在上述输出对象数据的输出控制中使用的参数信息;以及输出控制部,使用上述参数信息,进行上述输出对象数据的音响的输出控制。
附图说明
图1是表示实施方式的音响输出系统的功能结构的例子的图。
图2是表示实施方式的内容识别信息生成部的功能结构的例子的图。
图3是表示实施方式的状态识别信息生成部的功能结构的例子的图。
图4是表示实施方式的音响输出方法的例子的流程图。
图5是表示实施方式的参数信息的例子的图。
图6是表示实施方式的输出对象数据表的例子的图。
图7是表示实施方式的参数信息的例子(使用场景1的情况)的图。
图8是表示实施方式的参数信息的例子(使用场景2的情况)的图。
图9是表示实施方式的参数信息的例子(使用场景3的情况)的图。
图10是表示实施方式的参数信息的例子(使用场景4的情况)的图。
图11是表示实施方式的参数信息的例子(使用场景5的情况)的图。
图12是表示实施方式的参数的输入I/F的例子的图。
图13是表示实施方式的参数的输入I/F的例子的图。
图14是表示实施方式的参数的输入I/F的例子的图。
图15是表示实施方式的参数的输入I/F的例子的图。
图16是表示实施方式的音响输出系统的硬件结构的例子的图。
具体实施方式
以下,参照附图详细地说明音响输出系统、音响输出方法及程序的实施方式。
首先,对实施方式的音响输出系统100的功能结构的例子进行说明。
[功能结构的例子]
图1是表示实施方式的音响输出系统100的功能结构的例子的图。实施方式的音响输出系统100具备受理部1、内容识别信息生成部2、状态识别信息生成部3、参数信息生成部4、输出控制部5、输出部6及用户接口部7(用户I/F部7)。
另外,上述的图1的音响输出系统100的功能结构表示构成要素的组合的一例,并不需要一定具备全部的构成要素,根据用途也可以适当变更功能结构。例如,也可以将参数信息生成部4及输出控制部5通过1个功能块实现。
受理部1受理包括语音的语音数据或包括声音的声音数据。受理部1将语音数据或声音数据向内容识别信息生成部2及参数信息生成部4输入。另外,受理部1在连续地受理了语音数据或声音数据的情况下,将该语音数据或声音数据划分为输出(再现)控制单位,将划分后的语音数据或声音数据向内容识别信息生成部2及参数信息生成部4输入。
当内容识别信息生成部2从受理部1受理了语音数据或声音数据,则生成识别根据该语音数据或声音数据确定的内容的内容识别信息。关于内容的具体例在后面叙述。内容识别信息例如是内容标签。内容识别信息生成部2将内容识别信息向参数信息生成部4输入。
当状态识别信息生成部3从传感器200受理了由该传感器200检测的传感器数据,则生成识别根据该传感器数据确定的状态的状态识别信息。状态识别信息例如是状态标签。另外,传感器200可以是任意的。传感器200例如是取得包括某个区域的周边信息的影像的照相机等。此外,传感器200也可以装备在音响输出系统100中。另外,状态识别信息生成部也可以不是接受来自传感器200的输入,而是接受直接经由用户接口部7的由用户的输入。
参数信息生成部4从受理部1受理语音数据或声音数据,从内容识别信息生成部2受理内容识别信息,从状态识别信息生成部3受理状态识别信息。参数信息生成部4根据语音数据(或声音数据)、内容识别信息及状态识别信息,生成参数信息。参数信息是在虚拟音像的输出控制中使用的信息。参数信息例如是参数表。参数表的具体例在后述的使用场景1~5中说明。参数信息生成部4将参数信息向输出控制部5输入。
当输出控制部5从参数信息生成部4受理了参数信息,则使用该参数信息,进行虚拟音像的输出控制。
输出部6将受输出控制部5输出控制的虚拟音像输出。
用户接口部7受理表示参数信息的变更的操作输入。用户接口部7受理表示例如参数的值、该参数的定义及计算该参数的规则(例如算法等)中的至少1个的变更的操作输入。
图2是表示实施方式的内容识别信息生成部2的功能结构的例子的图。实施方式的内容识别信息生成部2具备输入判定部21、声音判定部22、语音语言判定部23、语音识别部24、意义理解部25及赋予部26。
当输入判定部21从受理部1受理输出对象数据,则判定该输出对象数据。输入判定部21在输出对象数据是声音数据的情况下,将该声音数据向声音判定部22输入。输入判定部21在输出对象数据是语音数据的情况下,将该语音数据向语音语言判定部22输入。
当声音判定部22从输入判定部21受理声音数据,则判定该声音数据中包含的声音。声音判定部22例如由判定“是什么声音”,“是有怎样的意义的声音”等的判定引擎实现。声音判定部22将声音的判定结果向赋予部26输入。
当另一方面,语音语言判定部23从输入判定部21受理语音数据,则判定该语音数据中包含的语音的语言。语音语言判定部23将语音数据及语言判定结果向语音识别部24输入。
当语音识别部24从语音语言判定部23受理语音数据及语言判定结果,则通过根据该语言判定结果切换后的语音识别引擎,进行该语音数据的语音识别。语音识别部24将语音识别结果向意义理解部25输入。
当意义理解部25从语音识别部24受理语音识别结果,则理解该语音识别结果的意义。例如,意义理解部25根据语音识别结果中包含的字符串,理解该语音识别结果的意义。作为更具体的例子,意义理解部25例如在语音识别结果中包含规定的关键字的情况下,理解为该语音识别结果的意义是“AAA”。意义理解部25将表示语音识别结果的意义的意义信息向赋予部26输入。
赋予部26在从声音判定部22受理了声音的判定结果的情况下,将与该声音的判定结果对应的内容识别信息(例如内容标签)向声音数据赋予。此外,赋予部26在从意义理解部25受理了意义信息的情况下,将与该意义信息对应的内容识别信息(例如内容标签)向语音数据赋予。赋予部26将被赋予给声音数据或语音数据的内容识别信息向参数信息生成部4输入。
另外,上述的图2的内容识别信息生成部2的功能结构表示构成要素的组合的一例,并不需要一定具备全部的构成要素,也可以根据用途而适当变更功能结构。
图3是表示实施方式的状态识别信息生成部3的功能结构的例子的图。实施方式的状态识别信息生成部3具备加工部31、输入判定部32、意义理解部33及赋予部34。
当加工部31从传感器200受理传感器数据,则进行该传感器数据的加工处理。传感器数据例如包含某个区域的周边信息。加工处理例如包括将传感器数据划分为与得到了语音数据或声音数据的时间带对应的单元单位(以下称作“单位传感器数据”)的划分处理等。具体而言,例如在由传感器200连续地持续取得了传感器数据的情况下,在进行状态的判定处理之前,首先,加工部31作为与语音数据或声音数据对应的“限定于某个时间带的传感器数据”,从传感器数据切割出单位传感器数据。状态的判定处理例如是对某个区域判定表示“人站住”、“经过”或“谁都没有”的某个的状态的处理等。加工部31将单位传感器数据向输入判定部32输入。
当输入判定部32从加工部31受理单位传感器数据,则判定该单位传感器数据的种类。具体而言,例如输入判定部32通过对单位传感器数据中包含的数值群进行分析而提取特征量,使用该特征量,将该单位传感器数据例如分类为组A~C的某个。输入判定部32将分类后的单位传感器数据向意义理解部33输入。另外,输入判定部32也可以将单位传感器数据向能够由音响输出系统100处理的数据形式进行数据变换,不是将单位传感器数据本身,而是将变换后的数据向意义理解部33输入。此外,也可以将上述的加工部31及输入判定部32作为1个功能块。
当意义理解部33从输入判定部32受理数据形式被变换后的单位传感器数据,则理解该单位传感器数据的意义。具体而言,例如意义理解部33通过判定“被分类为组A的单位传感器数据意味着人站住”等的判定引擎来实现。意义理解部33将表示单位传感器数据的意义的意义信息向赋予部26输入。
当赋予部34从意义理解部33受理意义信息,则将与该意义信息对应的状态识别信息(例如状态标签)向单位传感器数据赋予。赋予部34将被赋予给单位传感器数据的状态识别信息向参数信息生成部4输入。
另外,上述图3的状态识别信息生成部3的功能结构表示了构成要素的组合的一例,并不需要一定具备全部的构成要素,也可以根据用途而适当变更功能结构。
[音响输出方法]
图4是表示实施方式的音响输出方法的例子的流程图。首先,受理部1受理语音数据或声音数据(步骤S1)。
接着,内容识别信息生成部2生成向语音数据或声音数据赋予的内容识别信息(步骤S2)。具体而言,内容识别信息生成部2通过使上述图2的功能块动作,对语音数据或声音数据进行识别,并理解该语音数据或声音数据的意义。并且,内容识别信息生成部2作为与语音数据或声音数据的意义对应的识别内容的内容识别信息而生成内容标签。
接着,参数信息生成部4执行基于由步骤S2的处理生成的内容识别信息生成参数信息的参数信息生成步骤1(步骤S3)。
参数信息例如是决定语音数据或声音数据的输出(再现)条件的参数表。参数表例如是包括常数及变量的至少一方的1个以上的参数的集合。将参数表与输出(再现)对象数据建立了关联。输出对象数据是输出对象的原始数据(语音数据或声音数据)。将输出对象数据基于由参数表中包含的各参数的值的组合指定的输出条件,由输出控制部5进行输出控制。
图5是表示实施方式的参数信息的例子的图。图5的例子表示参数信息由参数表存储的情况。在本例中,参数表作为参数而包括表示取得时间(h/m/s)的time、表示数据ID的ID、表示数据处理类型(Type)的D、表示数据最新性的N、表示内容分类的contents、表示状态1(状态)的S1、表示状态2(再现次数)的num、表示反复控制1的R1、表示反复控制2的R2、表示内容的标签赋予的Xi~Xiv、表示标签与输出条件的关联的1~4、以及表示输出(output)的控制的out。输出对象数据例如是包括“***是〇〇〇”等的语音消息的语音数据。
对图4所示的参数信息生成步骤1的详细情况进行说明。参数信息生成部4将由步骤S1的处理受理了语音数据或声音数据的时刻(时间戳)设定到time参数中。参数信息生成部4将在由步骤S1的处理受理了语音数据或声音数据时被分配的识别号(机械地生成的识别用的数字等)设定到ID参数中。参数信息生成部4将由步骤S2的处理生成的内容标签设定到contents参数中。参数信息生成部4如果time参数的值在该时点是最大值(最新),则将N参数设定为η(最新),如果time参数的值在该时点不是最大值(最新),则设定δ(其他)。
另外,表示数据处理类型的D参数由音响输出系统100的用户预先设定。D参数在R1参数的设定时被参照。
以上是参数信息生成步骤1。此外,参数信息生成部4在参数信息生成步骤1的执行的同时,向输出对象数据表以时间序列写入time参数及ID参数。
图6是表示实施方式的输出对象数据表的例子的图。实施方式的输出(再现)对象数据表包括表示取得时间(h/m/s)的time及表示数据ID的ID的参数。time参数与图5的参数表的time参数对应。ID参数与图5的参数表的ID参数对应。在输出对象数据表中,存储着当前成为输出控制对象的输出对象数据。
说明图4所示的参数信息生成步骤2的整体的处理。在上述参数表生成步骤1结束后,状态识别信息生成部3根据由传感器200等检测的传感器数据,生成状态识别信息(步骤S4)。具体而言,状态识别信息生成部3通过使上述图3的功能块动作,按照由传感器200等检测的传感器数据及预先规定的规则,作为识别根据该传感器数据确定的状态的状态识别信息而生成状态标签。
接着,参数信息生成部4执行基于由步骤S4的处理生成的状态识别信息生成(更新)参数信息的参数信息生成步骤2(步骤S5)。
对参数信息生成步骤2的详细情况进行说明。参数信息生成部4将由步骤S4的处理生成的状态标签设定到S1参数中。
接着,参数信息生成部4执行基于到参数信息生成步骤2为止设定的参数生成(更新)参数信息的参数信息生成步骤3(步骤S6)。
对参数信息生成步骤3的详细情况进行说明。参数信息生成部4设定表示状态2(再现次数)的num参数、表示反复控制1的R1参数、表示反复控制2的R2参数、表示内容的标签赋予的参数(Xi~Xiv)、表示标签与输出条件的关联的参数(1~4)、以及表示输出的控制的out参数。
表示反复控制1的R1参数及表示反复控制2的R2参数基于控制输出对象数据的输出次数的规则来设定(决定)。控制输出次数的规则例如是由用户预先定义的算法等。
out参数表示输出对象数据的输出需要与否(out=1;输出,out=0;不输出)。num参数及R2参数是用于输出对象数据的输出控制的辅助变量。
在以上的3个参数信息生成步骤1~3(步骤S3、5及6)中,将规定用于一系列的声音/语音输出动作的参数的参数表的值全部计算并更新。
接着,输出控制部5基于由上述步骤计算出的out参数,如果out参数是1,则以由参数表指定的输出条件,将与该参数表建立关联的输出对象数据输出(步骤S7),如果out参数是0则不输出(步骤S8)。
接着,输出控制部5参照R1参数及R2参数,判定输出对象数据的输出的反复(步骤S9)。
首先,根据表示数据处理类型的D参数(流型φ或日志型ζ)及数据最新性N的值,计算R1参数。R1参数取1或0的值。
如果是R1=0,则输出控制部5从输出对象数据表中,将对应于与参数表建立了关联的输出对象数据的time参数及ID参数的组删除,结束该输出对象数据的输出控制次序(步骤S10)。如果输出对象数据的输出控制处理结束,音响输出系统100则成为下个输出对象数据的输入等待状态。
另一方面,如果是R1=1,则输出控制部5计算R2参数。R2参数的计算式在参数表内由用户预先定义。R2参数的计算式例如包括S1参数(状态标签)及contents参数(内容标签)等根据状况而变化的变量。如果是R2=0,则与上述R1=0的情况同样,向步骤S10的处理前进。
此外,如果是R2=1,则处理向上述的步骤S5的处理(参数信息生成步骤2)返回。由此,再次反复进行输出控制处理次序,通过S1参数(状态标签)的值的变化及新输入的输出对象数据的输入等,在循环中持续循环,直到成为R1=0或R2=0。
以下,关于将上述实施方式的音响输出系统100应用到实际的使用场景中的情况下的参数信息的设定及音响输出系统100的动作,示出具体例。另外,在各使用场景中说明的音响输出方法是一例,在各使用场景中使用的数据的定义及变量的数量等也可以适当变更。
[使用场景1]
在使用场景1中,对将音响输出系统100应用于现场作业的从业人员的沟通支援的情况进行说明。这里,作为一例,举出音响输出系统100作为为了在旅馆工作的从业人员有效率地进行作业而使用的沟通支援工具的应用。考虑被分派到各负责业务的从业人员们为了提高住宿客人的满意度、提供品质良好的服务,一边相互用语音进行顾客信息等的沟通一边有效率地进行作业的使用沟通工具的状况。在用语音交换的信息中,有面向客房负责人、面向厨房负责人、面向服务台负责人及全体从业人员对象的信息等。此外,用语音交换的信息根据负责人的立场而重要度(不需要听的信息、需要听的信息及希望反复再现的信息等)不同。
图7是表示实施方式的参数信息的例子(使用场景1的情况下)的图。图7的例子表示参数信息由参数表存储的情况。
首先,作为参数信息生成步骤1,参数信息生成部4将受理了输出对象数据的时刻(时间戳)设定到time参数中,将在该输出对象数据被受理时被分配的识别号设定到ID参数中。此外,参数信息生成部4将time参数及ID参数也存储到输出对象数据表(参照图6)中。
此外,在本使用场景1的情况下,有可能不是将输出对象数据一次输出(再现)而结束,而是反复输出直到任务完成。因此,在表示数据处理类型的D参数中,预先设定了日志型(ζ)。此外,参数信息生成部4参照输出对象数据表,如果time参数的值是输出对象数据表的列表中的最大值,则表示数据最新性的N参数被设定为最新(η),如果在输出对象数据表内另外存在最新数据,则N参数被设定为其他(δ)。
接着,参数信息生成部4将根据输出对象数据的内容而生成的内容标签设定到contents参数中。在图7的例子中,内容标签根据输出对象数据的内容面向哪个业务而设置。内容标签X1是识别面向房间负责人的内容的识别信息。面向房间负责人内容例如是“请进行房间的清扫”等的语音数据。内容标签X2是识别面向厨房内容的识别信息。面向厨房内容例如是“房间号8号的客人对荞麦真性过敏”等的语音数据。内容标签X3是识别面向服务台内容的识别信息。面向服务台内容例如是“房间号8的客人想要知道到附近的美术馆的交通手段”等的语音数据。内容标签X4是识别面向全员内容的识别信息。面向全员内容例如是“明天预订全满,预计会忙乱”等的语音数据。
在图7的例子中,由于输出对象数据是“请在9点前完成房间号7的清扫”,所以该输出对象数据的内容标签被设定为X1。
接着,对参数信息生成步骤2进行说明。首先,传感器200确认清扫的行动的完成有无。参数信息生成部4在还没有由传感器200观测到完成标识的情况下,表示状态1(状态)的S1参数被设定为表示需要对应的ξ。
反复控制变量有R1参数及R2参数的2种。按照使用表示数据处理类型的D参数和表示数据最新性的N参数的通用计算式,设定R1参数为1或0。在图7的例子中,由于数据处理类型是流型φ,并且数据最新性是η(最新),所以为R1=1。
此外,R2参数的计算规则由用户预先设定。在图7的例子中,如以下这样设定(定义)计算规则:如果表示状态1(状态)的S1参数(状态标签)是S1=ξ(需要对应),则反复输出(R2=1),如果是S1=Ψ(对应完成)或λ(仅信息共享),则不反复,进行1次再现而结束(R2=0)。
与内容标签即输出对象数据的内容对应的虚拟音像的输出条件,在参数表中预先由用户定义。虚拟音像的输出条件由表示内容的标签赋予的参数(X1~X4)及表示标签与输出条件的关联的参数(1~4)指定。例如,在图7的例子中,定义了以下的条件:如果内容标签是X1,则标签值为1;当标签值是1时,从相对于用户正面为135度的角度(相当于右斜后方),且从相当于从耳朵稍稍离开的某个距离ra以能够听到输出对象数据的方式进行再现。另外,从该耳朵到声音源的体感距离ra既可以是一定,也可以是可变的。另外也可以是,即使在当前时点是在体感距离ra为一定值的原状下使用的情况,也能够在表示体感距离ra的参数中保存变量。由此,对于将来控制再现体感距离的远近的情况也能够对应。
接着,对参数信息生成步骤3进行说明。通过参数信息生成步骤3,在参数表的最后的行中决定的参数是表示输出的控制的out参数。在图7的例子中,输出对象数据在满足以下的输出条件(1)及(2)的某个的情况下被输出(out=1)。
(1)“信息的内容是面向房间负责人(X1)或面向全员(X4)”、并且“再现次数num=0”的情况
(2)“信息的内容是面向房间负责人(X1)或面向全员(X4)”、并且“再现次数num是1以上,并且状态标签S1是需要对应(ξ)”的情况
另一方面,在上述输出条件(1)及(2)的哪个都不满足的情况下,不将输出对象数据输出(out=0)。
即,在图7的参数表的例子中,在实时地交错的各种语音数据中,选择对于房间负责人而言需要的信息并输出(再现)。此外,将输出对象数据在状态标签S1是需要对应(ξ)的情况下反复输出,直到某人对应完成而状态标签从需要对应(ξ)变化为对应完成(Ψ)。
在以上的流程中,按照由参数表指定的输出条件对输出对象数据的输出控制(输出/不输出)进行控制后,参照表示反复控制1的R1参数及表示反复控制2的R2参数。此时,在该使用场景1中,如上述那样R1参数总是1。此外,在该参数表内,由于表示状态1(状态)的S1参数(状态标签)是ξ,所以R2参数为1。因此,开始反复流程,如图4的流程图所示,从参数信息生成步骤2起再次开始处理。如果在参数信息生成步骤2中观测到最新的状态,S1参数被从需要对应(ξ)更新为完成(Ψ),则反复流程结束。
通过使用图7的参数表进行图4的流程图的处理,能够实现将对于业务执行而言需要的语音数据或声音数据取舍选择并输出(再现)以使其能从与内容对应的方向听到这样的希望的动作。
[使用场景2]
在使用场景2中,对将音响输出系统100应用于设施内的声音源的输出控制的情况进行说明。使用场景2中的“设施”,例如是电车内、商业设施内、政府机关内及车站内等,是所有“被划分出且能够与其他区域区别的区域”。在使用场景2中,不包括例如一般道路等区域没有被限定的场所。此外,考虑在该区域内发生的某种声音或语音只是基本地发生,不特别需要由声音源所有者侧进行某种有意的处理(想要仅送达至该区域内的特定的最终用户等)的情况。声音源所有者例如如果设施是电车则是运营该电车的铁路公司。最终用户例如如果设施是电车则是该电车的乘客。
图8是表示实施方式的参数信息的例子(使用场景2的情况)的图。图8的例子表示参数信息由参数表存储的情况。具体而言,图8表示将实施方式的音响输出系统100应用到例如电车内的车内广播或站台处的广播的信息中的,对站名进行特制而向乘客送达所需要的信息的应用中的情况下的参数表。通常,在电车内,当停车站接近时播放站名的广播,此外在停车于站台时因为车门打开所以电车内的乘客也能听到站台的站名广播。此外,在发生事故及延迟等时也播放车内广播。这些广播以电车内的乘客整体为对象,但基本上是自然播放的,通常没有被实施来自声音源所有者(铁路公司)的“与乘客契合的广播处理”等。另一方面,从乘客侧看,有不想漏听与自己下车的站直接相关的信息,此外想要以自己容易听到的形式获得信息的需求。为了进行与这样的需求对应的处理,例如如图8那样设定参数表。
在使用场景2中,假定用户佩戴着开放型耳机设备(在该使用场景2中是开放型耳麦),通过该开放型耳麦的麦克风检测车内广播的声音。即,在使用场景2中,实施方式的音响输出系统100由开放型耳麦实现。另外,也可以将音响输出系统100的功能结构中的一部分的功能用外部的服务器装置或智能设备等实现,通过该服务器装置或智能设备与开放型耳麦通信,实现实施方式的音响输出系统100。
使用场景2中的最终用户(乘客)的目的,例如是在自己下车的站不会坐过而有富余地进行心理准备并下车,另一方面,在到自己的目的地还有距离的情况下不在意车内广播而放松地度过。因而,作为来自最终用户的需求,例如有不想漏听目的站的前一站及接近目的站的信息,但在经过其以外的位置的过程中不听到广播的站名也可以这样的需求。此外,例如有需要也听到车内广播中的事故信息等的“站名以外的信息”,但想要与和当前位置连动的站名信息区别而听到这样的需求。
对将用来实现这样的需求的参数信息用图8的参数表实现的情况进行说明。在使用场景2中,对于利用路线A,并想要在B站下车的乘客,到达前一个的C站而播放车内广播,其语音成为输出对象数据。
首先,作为参数信息生成步骤1,参数信息生成部4将输出对象数据被受理的时刻(时间戳)设定到time参数中,并将在该输出对象数据被受理时被分配的识别号设定到ID参数中。此外,参数信息生成部4将time参数及ID参数也存储到输出对象数据表(参照图6)中。
另外,在使用场景2中,由于输出对象数据总是持续获取最新的信息,所以在表示数据处理类型的D参数中预先设定(定义)了流型
Figure BDA0001971485540000131
在表示数据最新性的N参数中默认预先设定(定义)了最新(η)。
接着,参数信息生成部4将根据输出对象数据的内容生成的内容标签设定到contents参数中。在图8的例子中,例如输出对象数据是“马上要到达C站”等的车内广播的语音数据。在应用了实施方式的音响输出系统100的应用中,预先由最终用户(乘客)输入乘车路线和想要下车的站名(例如“B站”)。因此,相对于计划下车站“B站”,可以判定“C站”是“前一站”。因此,在输出对象数据是包含“C站”的语音数据的情况下,对于该输出对象数据的contents参数(内容标签),设定表示是前一个站名的X1。
接着,对参数信息生成步骤2进行说明。在图8的例子中,由于想要检测“停车于站台中或以一定的距离以下接近到站台时的广播中发声的站名”,所以将对表示状态1(状态)的S1参数设定的状态标签分为“站区域或距离Ω内”(ξ)及其他(Ψ)。其理由是因为,例如当处于完全远离“C站”的地方时播放了“由于在C站紧急停止按钮被按下,所以正在进行安全确认”等的车内广播时,使得“C站”不被拾取到。在图8的例子中,根据来自传感器200的传感器数据或由其他的输入数据取得的周边信息,确定了状态S1的当前位置是“站区域或距离Ω内”(ξ),S1参数被设定为ξ。
由于如上述那样是
Figure BDA0001971485540000132
N=η,所以表示反复控制变量1的R1参数在图8的例子中R1参数总为1。
此外,R2参数的计算规则由最终用户(乘客)预先设定。在图8的例子中,如以下这样设定(定义)计算规则:如果反复再现次数是0或1则R2=1,如果是其以外(已经再现了2次)则R2=0而从输出控制循环跳出。
与内容标签即输出对象数据的内容对应的虚拟音像的输出条件,在参数表中预先由最终用户(乘客)或用户(铁路公司)定义。虚拟音像的输出条件由表示内容的标签赋予的参数(X1~X3)及表示标签与输出条件的关联的参数(1~3)指定。例如,在图8的例子中,定义了以下的条件:如果内容标签是X1,则标签值为1;当标签值为1时,从相对于最终用户正面为90度的角度(右横),且相当于距离ra处以能听到输出对象数据的方式进行再现。此外,定义了以下的条件:如果内容标签是X2,则标签值为2;当标签值为2时,从相对于最终用户正面为235度(左后方),且相当于距离ra处以能听到输出对象数据的方式进行再现。此外,定义了以下的条件:如果内容标签是X3,则标签值为3;当标签值为3时,从0度(最终用户正面),且相当于距离ra处以能听到输出对象数据的方式进行再现。
接着,对参数信息生成步骤3进行说明。通过参数信息生成步骤3,在参数表的最后的行中决定的参数是表示输出的控制的out参数。在图8的例子中,输出对象数据在满足以下的输出条件(1)的情况下被输出(out=1)。
(1)“内容标签是前一个站名(X1)或对应站名(X2)”,并且“当前位置是站区域或距离Ω内(ξ)”的情况(另外,在后述的反复控制中是“再现次数num=0或1”的情况下,由于表示反复控制2的R2参数为1,所以将输出对象数据再一次输出)。
另一方面,输出对象数据在不满足上述的输出条件(1)的情况下不被输出(out=0)。例如,在contents参数(内容标签)是X3(站名以外)、或S1参数是Ψ(“站区域或距离Ω内”以外)的情况下,输出对象数据不被输出(out=0)。另外,这并不意味着作为乘客的最终用户不能听到通常的车内广播。应注意的是,在使用场景2中设想的是开放耳机型设备的使用,经由该设备在耳边被强调再现的,仅限定于为out=1的输出对象数据,通常的车内广播的语音普通地经由耳朵被输入给用户。即,在各式各样的车内广播(语音数据)中,当按照最终用户个人而不同的“下车站”“下车站的前一站”的附近或到站时,使该车内广播或站台指引广播更强调而在对应用户的耳边再现这样的使用场景,即为本例。
在以上的流程中,按照由参数表指定的输出条件,对输出对象数据的输出控制(输出/不输出)进行控制后,参照表示反复控制1的R1参数及表示反复控制2的R2参数。此时,在该使用场景2中,如上述那样R1参数总是1。此外,R2参数在num=0或1时为R2=1。因此,在num=num+1递增后,开始反复流程,从参数信息生成步骤2起再次开始处理。在接着的R2参数的计算时如果为num>1,则反复流程结束。然后,从输出对象数据表中将与反复流程结束了的输出对象数据对应的数据(ID参数及time参数的组)删除,成为下个输出对象数据的输入等待。
[使用场景3]
在使用场景3中,对将音响输出系统100应用于设施内的声音源的输出控制的情况进行说明。使用场景3中的“设施”,例如是指商业设施内、政府机关内、美术馆内及博物馆内等,是在“被划分出并能够与其他区域区别的某个区域”中有特别想要对对方有选择地传达某种信息的需求的全部环境。
图9是表示实施方式的参数信息的例子(使用场景3的情况)的图。图9的例子表示参数信息由参数表存储的情况。具体而言,图9表示例如将关于博物馆内的展示物的语音指引信息作为输出对象数据输出(再现)控制的情况下的参数表的例子。
在使用场景3中,语音数据的内容不是实时生成的,而是预先被录音而准备的。语音输出系统100进行使该语音信息仅在鉴赏者在对应展示物前站住时再现,而在单单经过时不再现这样的控制处理。通过该控制处理,使得不强行将解说语音再现到没有兴趣而只是想要单单经过的到场者。此外,语音输出系统100当多个鉴赏者在相同的展示物前显示兴趣而站住时,匹配于各自的定时而分别地将指引再现。由此,作为信息所有者的博物馆运营组织能够发送确保鉴赏者的方便性的有效的语音指引信息。
在使用场景3中,输出对象数据是按照各个展示物预先准备的1个以上的语音数据。因此,对于表示取得时间的time参数及表示数据ID的ID参数分配了固定值。在表示数据处理类型的D参数中,为了进行反复再现而设定日志型(ζ)。此外,表示数据的最新性的N参数在使用场景3的情况下成为没有意义的参数,所以是什么都可以。因此,例如N参数的值以η固定。
在使用场景3中,将contents参数(内容标签)也根据语音数据的内容而预先分配。在图9的例子中,对于博物馆的展示,对作品名和特征指定X1,对作品被创作的时代及作者的背景的解说指定X2,对其他的补充信息及效果声音等指定X3。因而,使用场景3的参数信息生成步骤1预先完成,当鉴赏者初次进入展示室,则在已经带有在参数信息生成步骤1中应被输入的参数的状态下,将参数表与语音数据群一起下载到鉴赏者的终端中。鉴赏者的终端例如是与开放型耳机设备(在该使用场景3中是开放型耳机扬声器)连动的智能设备。在使用场景3中,音响输出系统100基于鉴赏者的状态选择输出对象的用户的开放型耳机扬声器,向所选择的开放型耳机扬声器输出指引语音信息。
接着,对参数信息生成步骤2进行说明。在使用场景3中,向参数表的参数的动态输入总是从参数信息生成步骤2开始。在参数信息生成2中,根据由传感器200检测的传感器数据,设定表示状态1(状态)的S1参数。在使用场景3中,设置在展示物的附近的传感器200检测鉴赏者站住在展示物前、正在经过、或谁都没有的状态。并且,参数信息生成部4将表示由传感器200检测出的状态的状态标签设定到S1参数中。在图9的参数表的例子中,表示鉴赏者站住的状态的ξ被设定在S1参数中。
另外,检测鉴赏者的状态的方法可以是任意的。鉴赏者的状态例如基于由作为音响输出系统100的最终用户的鉴赏者佩戴的设备(例如开放型耳机扬声器等)是否以一定时间以上接收到展示物附近的传感器200发出的信号来检测。在使用场景3中,语音数据自身是由声音源所有者(在使用场景3中是博物馆)对于全部的鉴赏者准备相同的数据。通过作为最终用户的鉴赏者在博物馆内将自己持有的终端的应用启动,将参数表下载到应用内。参数表的S1参数的值根据各最终用户的运动(站住及经过等)而设定。
由于如上述那样是D=ζ,所以表示反复控制变量1的R1参数在图9的例子中,R1参数总为1。
此外,R2参数的计算规则是由用户(博物馆)预先设定的,不会将相同的展示物的说明对相同的最终用户(鉴赏者)反复2次以上。因此,在图9的例子中,仅在num=0时有反复(R2=1),当num为1以上时为无反复(R2=0)。由此,能够控制实现避免例如在鉴赏者将看过一次的展示物返回来仔细重新观看那样的情况下也将相同的语音指引多次再现的状况。另外,鉴赏者通过有意地对终端进行指示,能够将相同的语音指引再一次再现。
与内容标签即输出对象数据的内容对应的虚拟音像的输出条件在参数表中预先由用户(博物馆)定义。虚拟音像的输出条件由表示内容的标签赋予的参数(X1~X4)及表示标签与输出条件的关联的参数(1~4)指定。例如,在图9的例子中设定为,根据说明内容,使得语音数据对于站立在展示物前的鉴赏者而言能从3种方向(45度、225度或270度)听到。
接着,对参数信息生成步骤3进行说明。通过参数信息生成步骤3,在参数表的最后的行中决定的参数是表示输出的控制out参数。在图9的例子中,将输出对象数据在满足以下的输出条件(1)的情况下输出(out=1)。
(1)“再现次数num=0、并且鉴赏者站立在展示物前(S1=ξ)”的情况
另一方面,将输出对象数据在不满足上述的输出条件(1)的情况下不输出(out=0)。因而,仅向对展示物有兴趣的鉴赏者仅再现1次指引语音。此外,如上述那样,决定一次输出,即为out=1的同时,将表示再现次数的num参数计数+1。由此,即使有将相同的展示物多次重新观看的鉴赏者,也能够避免每当站住就多次反复进行相同的指引那样的状况。
此外,在使用场景3中,将下载到与各个鉴赏者的开放型耳机设备连动的智能设备中的各个参数表的值更新。因此,即使是多个鉴赏者在相同的展示物前站住的情况,各个鉴赏者也能够在自己站住的时候从没有漏音的开放型耳机设备听到指引语音。由此,能够防止朝向某个鉴赏者输出的指引语音妨碍该观赏者的周围的观赏者的鉴赏。
在以上的流程中,在按照由参数表指定的输出条件,对输出对象数据的输出控制(输出/不输出)进行控制后,参照表示反复控制1的R1参数及表示反复控制2的R2参数。此时,在该使用场景3中,如上述那样R1参数总是1。此外,R2参数仅在num=0时为R2=1。因此,实际上如果将输出对象数据即便一次输出(再现),由于成为num=num+1>=1,所以反复流程也结束。然后,从输出对象数据表中,将与反复流程结束了的输出对象数据对应的数据(ID参数及time参数的组)删除,成为下个输出对象数据的输入等待。具体而言,例如如果鉴赏者新进入到某个展示室中,则将处于该房间中的展示物的指引语音汇总下载到该鉴赏者的终端(例如智能设备)中。在R2参数成为1的情况下,将图4的输出控制流程从参数信息生成步骤2起再开始。并且,如果在下个R2参数的计算时成为num>=1,则从图4的输出控制流程脱离,成为下个输出对象数据的输入等待。
另外,在使用场景3中,输出控制部5也可以通过一个状态参数,对包括多个输出对象数据(声音数据或语音数据)的数据集进行输出控制。在此情况下,数据集中包含的各个输出对象数据的虚拟音像也能够通过与该输出对象数据建立了关联的参数表分别地控制方向及距离等的输出。
例如,在当鉴赏者经过展示物前时,想要再现人物A、B及C的一系列的会话(会话是预先被录音的语音数据)的情况下,将“人物A、B及C的一系列的会话”的语音数据作为一个总括的数据集处置。因此,将表示状态1(状态)的S1参数设定的状态(ξ:“鉴赏者在展示物前站住”等)及对表示状态2(再现次数)的num参数设定的值按照数据集而设定。当S1=ξ时,将数据集中包含的各个输出对象数据输出,但此时,通过与各输出对象数据建立了关联的参数表(参照图9),能够实现人物A的声音来自右、人物B的声音来自左、人物C的声音来自正后方等的虚拟音像的输出控制。
[使用场景4]
在使用场景4中,对将音响输出系统100应用于同声传译及舞台艺术的实时语音解说等的输出控制的情况进行说明。即,在使用场景4中,对用户一边在手边简单地切换终端的设定、一边将由语音数据实时提供的信息以对于该用户而言希望的形式获取的情况进行说明。各个用户即使从已经开始语音数据的供给后也能够自由地变更获取/不获取语音数据等的设定。
图10是表示实施方式的参数信息的例子(使用场景4的情况)的图。图10的例子表示参数信息由参数表存储的情况。具体而言,图10表示例如将音响输出系统100应用于舞台戏剧同声传译系统的情况下的参数表的例子。在使用场景4中,语音数据的语言存在多种。根据舞台的演出节目及讲话者,在语音数据中使用的语言不同。在使用场景4中,考虑作为舞台的鉴赏者的最终用户也有一边实时地掌握翻译为希望的语言的内容、一边也想听到不仅是翻译后的结果而且是原语音自身的需求那样的情况。为了对应于这样的需求,通过应用实施方式的音响输出系统100,能够根据在语音数据中使用的语言,变更听到该语音数据的方向。由此,用户容易做出语音数据的区分听取。此外,通过用户在不需要语音的翻译、或想要将原语音关闭的情况下,在用户的终端中能够进行功能的开启关闭的切换,用户的方便性进一步提高。
在使用场景4中,每当发言者(例如讲出台词的表演者)讲了一个总括的句子,就将基于该句子的语音的语音数据作为输出对象数据,由舞台的主办者从多个频道同时发送。输出对象数据例如是包含原语音的语音数据及翻译版语音数据。翻译版语音数据包括经由同声翻译引擎被实时翻译而以其他语言被讲出的翻译语音。作为舞台的鉴赏者的最终用户从多个频道中选择希望的频道,经由开放型设备(在该使用场景4中为开放型耳麦)听取输出对象数据中包含的语音。
鉴赏者在演出开始之前,将应用在终端(例如用户持有的智能设备)上启动。将参数表及输出对象数据表以设定了初始值的状态下载到终端中。应用的状态为如果受理输出对象数据则工作的待机状态。例如,设想戏剧被以日语演出,且作为翻译语言而准备了英语及德语的情况。在使用场景4中,作为具体例,对鉴赏者经由手边的终端的用户接口部7指定了德语的语音接收的情况进行说明。
首先,作为参数信息生成步骤1,参数信息生成部4将输出对象数据被受理的时刻(时间戳)设定到time参数中,将在该输出对象数据被受理时被分配的识别号设定到ID参数中。此外,参数信息生成部4将time参数及ID参数也存储到输出对象数据表(参照图6)中。
另外,在使用场景4中,由于输出对象数据总是持续获取最新的信息,所以在表示数据处理类型的D参数中预先设定(定义)了流型
Figure BDA0001971485540000191
在表示数据最新性的N参数中默认而预先设定(定义)了最新(η)。
接着,参数信息生成部4将根据输出对象数据的内容而生成的内容标签设定到contents参数中。在图10的例子中,由于用户已经指定了德语的接收,所以输出对象数据为德语的语音数据。因此,对于contents参数总是设定德语(X3)。
另外,在图10的例子中,例示了用户选择了仅进行德语的语音数据的接收的情况,但也可以将参数表构成为,将全部语言的语音数据接收,并以在输出的控制中使用的out参数控制各语言的输出有无。可以考虑使用的设备的处理能力等,而鉴于实际的使用状况来适当调整控制方法也是本参数表的控制的优点。
接着,对参数信息生成步骤2进行说明。在图10的例子中,将表示状态1(状态)的S1参数根据基于经由终端的用户接口部7的用户的操作输入的输入数据,设定为表示翻译语音被设为有效(on)的ξ。
由于如上述那样是
Figure BDA0001971485540000201
N=η,所以表示反复控制变量1的R1参数在图10的例子中,R1参数总为1。
此外,R2参数的计算规则由最终用户(鉴赏者)预先设定。在图10的例子中,为了使得一直正在进行的戏剧的台词不两次听到,在R2参数中预先设定(指定)了固定值0。
在使用场景4中,为了避免设定的麻烦,与内容标签即输出对象数据的内容对应的虚拟音像的输出条件在参数表中由信息所有者侧的用户(舞台的主办者)预先定义。虚拟音像的输出条件由表示内容的标签赋予的参数(X1~X4)及表示标签与输出条件的关联的参数(1~4)指定。因此,在作为最终用户的鉴赏者下载到终端中的参数表中,表示内容的标签赋予的参数(X1~X4)及表示标签与输出条件的关联的参数(1~4)为已经输入的固定值。在图10的例子中,例如以舞台正面为基准,如英语为135度方向、德语为225度方向那样,设定为从指定的方向听到翻译语音。
接着,对参数信息生成步骤3进行说明。通过参数信息生成步骤3,在参数表的最后的行中决定的参数是表示输出的控制的out参数。在图10的例子中,将输出对象数据在满足以下的输出条件(1)的情况下输出(out=1)。
(1)“再现次数num=0”、并且“翻译语音是on(S1=ξ)”的情况
在图10的例子中,如果输出对象数据一次被输出(再现),则成为num>0,所以为out=0。此外,在R2参数中设定了0的固定值。因此,不执行反复流程。如果输出对象数据被输出1次,则从输出对象数据表中,将与该输出对象数据对应的数据(ID参数及time参数的组)删除,成为接着的输出对象数据的输入等待。
另外,在使用场景4中,也不意味着最终用户(鉴赏者)不能直接听到通常的自然嗓音。在使用场景4中,最终用户使用开放耳机型设备,经由该设备将作为out=1是输出对象数据在耳边强调而输出(再现)。对于用户,也能听到由通常的舞台演者讲出的语音。此外,S1参数根据用户的操作输入何时都能够变更。因此,在用户想要不听翻译语音而仅听自然嗓音的情况下,通过进行由开放耳机型设备的用户接口部7变更设定的操作输入,在戏剧鉴赏中也能够简单地将翻译语音的再现设为无效(Off)。
在以上的流程中,在按照由参数表指定的输出条件对输出对象数据的输出控制(输出/不输出)进行控制后,参照表示反复控制1的R1参数及表示反复控制2的R2参数。此时,在该使用场景4中,如上述那样R1参数总是1,R2参数总是0。因此,如果输出对象数据一次被输出(再现),则从图4的输出控制流程脱离,成为下个输出对象数据的输入等待。
[使用场景5]
在使用场景5中,对将音响输出系统100活用于呼叫中心对应支援解决方案的情况进行说明。具体而言,在使用场景5中,举出对从事呼叫中心等的业务,并受到长时间持续听取语音的负荷的从事者进行支援的解决方案的例子。在使用场景5中,通过虚拟音像的输出控制而输出语音,以使语音的内容更容易捕捉、对耳朵的负担更少。由此,目的是得到削减从事者的负担及疲劳的效果。使用场景5举出通过使用实施方式的音响控制系统100的参数表而能够对应与关于这样的限定性的用途的一例。各用户可以将自己容易听取的语音再现条件预先设定为参数表的参数。各用户只要一次设定了语音再现条件,就不需要每次变更。在长时间的语音听取中,对用户的耳朵的负担也不能忽视,“听取容易度”成为重要的要素之一。
图11是表示实施方式的参数信息的例子(使用场景5的情况)的图。图11的例子表示参数信息由参数表存储的情况。具体而言,图11表示将实施方式的音响输出系统100向例如来自顾客的消费者咨询中心的话务员用系统应用的情况下的参数表的例子。在使用场景5中,实现根据向消费者咨询中心拨打的电话的内容(投诉、咨询、申请及其他)改变再现的方向而输出。通过实施方式的音响输出系统100,能够将对于话务员而言心理负担最大的投诉对应指定为对耳朵的负担最少的方向。此外,通过按照内容改变听到的方向,能够使话务员的对应的思想准备变得容易。此外,被实施了虚拟音像处理的语音与通常的由耳机进行的再现相比,由于使得能够实际感到好像不是从耳边而是从稍稍远离的距离ra(例如距耳边十几cm等)听到,所以还同时可期待听觉疲劳的抑制效果。
在使用场景5中,每当发言者(打电话来的消费者)讲出一个总括的句子,该句子的语音数据就成为输出对象数据。话务员预先在自己的终端上将应用启动。参数表及输出对象数据表以被设定了初始值的状态被下载到终端中。应用的状态成为如果受理输出对象数据则工作的待机状态。如果最终用户(这里是话务员)接起电话,则该电话的语音数据被作为输出对象数据处置。在该使用场景5的情况下,用户(话务员)使用电话语音为直接输入的类型的对讲电话等。因此,被向用户的耳朵输入的语音数据仅为经由设备被本应用处理后的电话语音。
首先,作为参数信息生成步骤1,参数信息生成部4将输出对象数据被受理的时刻(时间戳)设定到time参数中,将当该输出对象数据被受理时被分配的识别号设定到ID参数中。此外,参数信息生成部4将time参数及ID参数也存储到输出对象数据表(参照图6)中。
另外,在使用场景5中,由于输出对象数据总是持续获取最新的信息,所以在表示数据处理类型的D参数中预先设定(定义)了流型
Figure BDA0001971485540000221
在表示数据最新性的N参数中默认而预先设定(定义)了最新(η)。
接着,参数信息生成部4将根据输出对象数据的内容生成的内容标签设定到contents参数中。在图11的例子中,对于contents参数,设定投诉(X1)、咨询(X2)、申请(X3)或其他(X4)。内容识别信息生成部2例如通过意图理解引擎判定被输入的语音的内容,根据该语音的内容赋予内容标签X1~X4。
接着,对参数信息生成步骤2进行说明。使用场景5的用户是接受最初的咨询的话务员。因此,表示状态1(状态)的S1参数被固定为未对应(ξ)。
由于如上述那样是
Figure BDA0001971485540000222
N=η,所以表示反复控制变量1的R1参数在图11的例子中,R1参数总为1。
此外,R2参数的计算规则由用户(话务员)预先设定。在图11的例子中,为了不将相同的电话内容现场听取2次,在R2参数中预先设定(指定)了固定值0。
在使用场景5中,与内容标签即输出对象数据的内容对应的虚拟音像的输出条件,在参数表中由用户(话务员)预先定义。虚拟音像的输出条件由表示内容的标签赋予的参数(X1~X4)及表示标签与输出条件的关联的参数(1~4)指定。在图11的例子中,例如以用户的正面为基准,设定为,如投诉(X1)从135度方向(右后方)、咨询(X2)从225度方向(左后方)那样,从指定的方向听到语音。通过进行这样的设定,话务员能够根据听到的方向而即时地掌握是关于什么的电话。
接着,对参数信息生成步骤3进行说明。通过参数信息生成步骤3,在参数表的最后的行中决定的参数是表示输出的控制的out参数。在图11的例子中,由于不会有话务员不听取从顾客打来的电话的内容的情况,所以out参数总是被指定为固定值1。由于R2参数被设定为固定值0,所以如果输出对象数据被输出(再现)一次,就从图4的输出控制流程脱离,成为下个输出对象数据的输入等待。
另外,如在上述的使用场景1~5中叙述那样,在对实施方式的音响输出系统100进行控制的参数表中包含的各种数值及定义等,既有由音响输出系统100自动地设定的情况,也有由最终用户或管理者等设定的情况。此外,在由最终用户或管理者等设定的情况下,既有预先设定的情况,也有通过最终用户或管理者的操作输入每次设定的情况。
音响输出系统100的控制构造对于怎样的方法的设定输入都能够通用地应用,但在通过操作输入受理设定的情况下,优选的是具备输入者能够将参数通过用户接口部7直观地设定那样的接口。因而,在实施方式的音响输出系统100中,准备设想了用户的定义的参数及定义的输入I/F,进行控制以使使用该I/F的编辑结果反映到参数表主体中。由此,在实施方式的音响输出系统100中,用户能够容易地设定被虚拟音像处理后的输出对象数据的输出的进行方式,此外,在音响输出系统100的运行开始后也能够容易地变更设定。
图12至图15是表示实施方式的参数的输入I/F的例子的图。图12表示用来设定(定义)内容识别信息(内容标签)的输入I/F的例子。图13表示用来设定(定义)虚拟音像的输出条件(距离r及角度θ)的输入I/F的例子。图14表示用来设定(定义)表示输出的控制的out参数的计算规则的输入I/F的例子。
图15表示用来设定(定义)状态识别信息(状态标签)的输入I/F的例子。在图15的例子中,input表示输入值,init表示初始值。将init通过音响输出系统100的初始化序列(系统起动时等)设定在参数表中。如果将输入值在音响输出系统100的使用中输入(更新),则将该输入值设定到参数表中。
另外,图12至图15的例子是一例,实际上,要求输入I/F以在实用上确保方便性和简单性那样的形式匹配于各使用场景而提供。
最后,对实施方式的音响输出系统100的硬件结构的例子进行说明。
[硬件结构的例子]
图16是表示实施方式的音响输出系统100的硬件结构的例子的图。实施方式的音响输出系统100具备控制装置41、主存储装置42、辅助存储装置43、显示装置44、输入装置45、通信装置46及输出装置47。控制装置41、主存储装置42、辅助存储装置43、显示装置44、输入装置45、通信装置46及输出装置47经由总线48被相互连接。
音响输出系统100只要是具有上述硬件结构的任意的装置的组合就可以。例如音响输出系统100由可穿戴设备、智能设备及PC(个人计算机,Personal Computer)等构成。可穿戴设备例如是开放型耳机设备、麦克风、扬声器及对讲机(对讲电话)、各种佩戴型传感器等。此外,智能设备例如是平板电脑终端及智能电话、或具有与它们同等的计算处理能力的便携型终端等。
控制装置41执行被从辅助存储装置43读出到主存储装置42中的程序。主存储装置42是ROM(只读存储器,Read Only Memory)及RAM(随机存取存储器,Random AccessMemory)等的存储器。辅助存储装置43是HDD(硬盘驱动器,Hard Disk Drive)及存储卡等。
显示装置44例如显示音响输出系统100的状态等。输入装置45受理来自用户的操作输入。另外,显示装置44及输入装置45也可以由具备显示功能和输入功能的触摸板等实现。此外,也可以将显示装置44及输入装置45设置在其他装置中,音响输出系统100的设定的变更由其他装置进行。
通信装置46是用于音响输出系统100与其他装置通信的接口。输出装置47是输出语音的扬声器等的装置。输出装置47与上述输出部6对应。
将由实施方式的音响输出系统100执行的程序以可安装的形式或可执行的形式的文件存储到CD-ROM、存储卡、CD-R、DVD(数字通用光盘,Digital Versatile Disk)等的能够由计算机读取的存储介质中,作为计算机、程序、产品提供。
此外,也可以构成为,将由实施方式的音响输出系统100执行的程序保存到连接在因特网等的网络上的计算机上,通过经由网络下载来提供。此外,也可以构成为,将实施方式的音响输出系统100执行的程序不下载而经由因特网等的网络提供。
此外,也可以构成为,将实施方式的音响输出系统100的程序预先装入到ROM等中而提供。
由实施方式的音响输出系统100执行的程序为包括上述各功能中的也能够由程序实现的功能块的模组结构。该功能块作为实际的硬件,是通过控制装置41从存储介质将程序读出并执行而将上述各功能块装载到主存储装置42上。即,将上述各功能块在主存储装置42上生成。
另外,也可以将实施方式的音响输出系统100的功能的一部分或全部通过IC(集成电路,Integrated Circuit)等的硬件实现。IC例如是执行专用的处理的处理器。
此外,在使用多个处理器实现各功能的情况下,各处理器既可以实现各功能中的1个,也可以实现各功能中的2个以上。
此外,实施方式的音响输出系统100的动作形态可以是任意的。也可以使实施方式的音响输出系统100的功能的一部分由例如构成网络上的云系统的服务器装置等实现。
如以上说明,在实施方式的音响输出系统100中,受理部1作为输出对象数据而受理包括语音的语音数据或包括声音的声音数据。内容识别信息生成部2生成识别根据该输出对象数据确定的内容的内容识别信息。状态识别信息生成部3生成根据传感器数据及输入数据的至少一方识别状态的状态识别信息。参数信息生成部4根据该内容识别信息和该状态识别信息,生成在该输出对象数据的输出控制中使用的参数信息。并且,输出控制部5使用该参数信息,进行该输出对象数据的音响的输出控制。
由此,能够更容易地构建能够对各种各样的用途应用的音响输出系统100。具体而言,根据实施方式的音响输出系统100,由于能够通过参数设定来决定虚拟音像的方向及距离等的输出条件、以及是否将加工后的音像(虚拟音像)输出,所以能够与想要使用虚拟音像处理的各种环境及目的等对应。即,根据实施方式的音响输出系统100,能够不将系统整体每次再构成,而通过一个音响输出系统100与各种各样的用途对应。
说明了本发明的几个实施方式,但这些实施方式是作为例子提示的,不是要限定发明的范围。这些新的实施方式能够以其他的各种各样的形态实施,在不脱离发明的主旨的范围中能够进行各种省略、替换、变更。这些实施方式及其变形包含在发明的范围及主旨中,并且包含在权利要求书所记载的发明和其等价的范围中。

Claims (9)

1.一种音响输出系统,
具备:
受理部,受理包含语音的语音数据或包含声音的声音数据作为输出对象数据;
内容识别信息生成部,生成识别根据上述输出对象数据确定的内容的内容识别信息;
状态识别信息生成部,根据传感器数据及输入数据的至少一方,生成识别状态的状态识别信息;
参数信息生成部,根据上述内容识别信息和上述状态识别信息,生成在上述输出对象数据的输出控制中使用的参数信息;以及
输出控制部,使用上述参数信息,进行上述输出对象数据的音响的输出控制;
上述参数信息生成部将上述参数信息与上述输出对象数据建立关联,
上述参数信息至少包括表示上述内容识别信息的内容参数、表示上述状态识别信息的状态参数、表示包含虚拟音像的方向的输出条件的第1虚拟音像参数以及表示上述虚拟音像的输出有无的第2虚拟音像参数,上述第1虚拟音像参数与上述内容参数建立关联,上述第2虚拟音像参数与上述状态参数及上述内容参数建立关联,
上述输出控制部基于上述第1虚拟音像参数以能够从上述虚拟音像的方向听到上述虚拟音像的上述输出对象数据的方式控制上述虚拟音像的输出,
上述输出控制部基于上述第2虚拟音像参数控制上述虚拟音像的输出的有无。
2.如权利要求1所述的音响输出系统,
上述内容识别信息生成部在上述输出对象数据是上述声音数据的情况下,判定上述声音数据中包含的声音,根据上述声音的判定结果生成上述内容识别信息。
3.如权利要求1所述的音响输出系统,
上述内容识别信息生成部在上述输出对象数据是上述语音数据的情况下,判定上述语音数据中包含的语音的语言,取得通过语音识别引擎识别上述语音而得到的语音识别结果,根据上述语音识别结果的意义生成上述内容识别信息,上述语音识别引擎与判定出的语言相对应。
4.如权利要求1所述的音响输出系统,
上述参数信息包括参数、上述参数的定义和计算上述参数的规则;
上述音响输出系统还具备受理表示上述参数、上述定义及上述规则的至少1个的变更的操作输入的用户接口部;
上述参数信息生成部根据上述操作输入,将上述参数信息更新。
5.如权利要求4所述的音响输出系统,
上述规则至少包括计算上述第2虚拟音像参数的规则。
6.如权利要求5所述的音响输出系统,
上述参数信息还包括控制是否反复进行上述虚拟音像的输出的反复控制参数;
上述规则还包括计算上述反复控制参数的规则。
7.如权利要求1~6中任一项所述的音响输出系统,
上述参数信息生成部将多个上述输出对象数据作为1个数据集,在与上述数据集中包含的上述输出对象数据建立了关联的上述参数信息中包含的参数中,至少对上述状态参数设定相同的值。
8.一种音响输出方法,
包括:
受理包含语音的语音数据或包含声音的声音数据作为输出对象数据的受理步骤;
生成识别根据上述输出对象数据确定的内容的内容识别信息的内容识别信息生成步骤;
根据传感器数据及输入数据的至少一方生成识别状态的状态识别信息的状态识别信息生成步骤;
根据上述内容识别信息和上述状态识别信息,生成在上述输出对象数据的输出控制中使用的参数信息的参数信息生成步骤;以及
使用上述参数信息进行上述输出对象数据的音响的输出控制的输出控制步骤;
上述参数信息生成步骤将上述参数信息与上述输出对象数据建立关联,
上述参数信息至少包括表示上述内容识别信息的内容参数、表示上述状态识别信息的状态参数、表示包含虚拟音像的方向的输出条件的第1虚拟音像参数以及表示上述虚拟音像的输出有无的第2虚拟音像参数,上述第1虚拟音像参数与上述内容参数建立关联,上述第2虚拟音像参数与上述状态参数及上述内容参数建立关联,
上述输出控制步骤基于上述第1虚拟音像参数以能够从上述虚拟音像的方向听到上述虚拟音像的上述输出对象数据的方式控制上述虚拟音像的输出,
上述输出控制步骤基于上述第2虚拟音像参数控制上述虚拟音像的输出的有无。
9.一种存储介质,
存储有程序,所述程序使计算机作为以下单元发挥功能:
受理部,受理包含语音的语音数据或包含声音的声音数据作为输出对象数据;
内容识别信息生成部,生成识别根据上述输出对象数据确定的内容的内容识别信息;
状态识别信息生成部,根据传感器数据及输入数据的至少一方,生成识别状态的状态识别信息;
参数信息生成部,根据上述内容识别信息和上述状态识别信息,生成在上述输出对象数据的输出控制中使用的参数信息;以及
输出控制部,使用上述参数信息,进行上述输出对象数据的音响的输出控制;
上述参数信息生成部将上述参数信息与上述输出对象数据建立关联,
上述参数信息至少包括表示上述内容识别信息的内容参数、表示上述状态识别信息的状态参数、表示包含虚拟音像的方向的输出条件的第1虚拟音像参数以及表示上述虚拟音像的输出有无的第2虚拟音像参数,上述第1虚拟音像参数与上述内容参数建立关联,上述第2虚拟音像参数与上述状态参数及上述内容参数建立关联,
上述输出控制部基于上述第1虚拟音像参数以能够从上述虚拟音像的方向听到上述虚拟音像的上述输出对象数据的方式控制上述虚拟音像的输出,
上述输出控制部基于上述第2虚拟音像参数控制上述虚拟音像的输出的有无。
CN201910119814.XA 2018-02-19 2019-02-18 音响输出系统、音响输出方法及存储介质 Active CN110176231B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018026951A JP7163035B2 (ja) 2018-02-19 2018-02-19 音響出力システム、音響出力方法及びプログラム
JP2018-026951 2018-02-19

Publications (2)

Publication Number Publication Date
CN110176231A CN110176231A (zh) 2019-08-27
CN110176231B true CN110176231B (zh) 2023-04-25

Family

ID=67617255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910119814.XA Active CN110176231B (zh) 2018-02-19 2019-02-18 音响输出系统、音响输出方法及存储介质

Country Status (3)

Country Link
US (1) US11216242B2 (zh)
JP (1) JP7163035B2 (zh)
CN (1) CN110176231B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111415679B (zh) * 2020-03-25 2023-02-28 Oppo广东移动通信有限公司 站点识别方法、装置、终端及存储介质
CN112037825B (zh) * 2020-08-10 2022-09-27 北京小米松果电子有限公司 音频信号的处理方法及装置、存储介质
WO2024073297A1 (en) * 2022-09-30 2024-04-04 Sonos, Inc. Generative audio playback via wearable playback devices

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010060729A (ja) * 2008-09-02 2010-03-18 Brother Ind Ltd 受付装置、受付方法、及び受付プログラム
CN104488027A (zh) * 2012-07-09 2015-04-01 独立行政法人情报通信研究机构 声音处理系统以及终端装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3834848B2 (ja) * 1995-09-20 2006-10-18 株式会社日立製作所 音情報提供装置、及び音情報選択方法
US6983251B1 (en) * 1999-02-15 2006-01-03 Sharp Kabushiki Kaisha Information selection apparatus selecting desired information from plurality of audio information by mainly using audio
JP3913771B2 (ja) * 2004-07-23 2007-05-09 松下電器産業株式会社 音声識別装置、音声識別方法、及びプログラム
JP4608400B2 (ja) * 2005-09-13 2011-01-12 株式会社日立製作所 音声通話システムおよび音声通話中におけるコンテンツの提供方法
JP5119055B2 (ja) * 2008-06-11 2013-01-16 日本システムウエア株式会社 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
WO2011158506A1 (ja) * 2010-06-18 2011-12-22 パナソニック株式会社 補聴器、信号処理方法及びプログラム
US9274744B2 (en) * 2010-09-10 2016-03-01 Amazon Technologies, Inc. Relative position-inclusive device interfaces
JP2014011509A (ja) * 2012-06-27 2014-01-20 Sharp Corp 音声出力制御装置、音声出力制御方法、プログラム及び記録媒体
US9361885B2 (en) * 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
WO2015047032A1 (ko) * 2013-09-30 2015-04-02 삼성전자 주식회사 생체 신호에 기초하여 컨텐츠를 처리하는 방법, 및 그에 따른 디바이스
KR102094219B1 (ko) * 2014-01-13 2020-04-14 엘지전자 주식회사 음향 액세서리 장치 및 그 동작 방법
JP6456163B2 (ja) * 2015-01-28 2019-01-23 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報処理装置、音声出力方法及びコンピュータプログラム
EP3657822A1 (en) 2015-10-09 2020-05-27 Sony Corporation Sound output device and sound generation method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010060729A (ja) * 2008-09-02 2010-03-18 Brother Ind Ltd 受付装置、受付方法、及び受付プログラム
CN104488027A (zh) * 2012-07-09 2015-04-01 独立行政法人情报通信研究机构 声音处理系统以及终端装置

Also Published As

Publication number Publication date
CN110176231A (zh) 2019-08-27
JP7163035B2 (ja) 2022-10-31
US11216242B2 (en) 2022-01-04
JP2019145944A (ja) 2019-08-29
US20190258452A1 (en) 2019-08-22

Similar Documents

Publication Publication Date Title
US20220005492A1 (en) Automated transcript generation from multi-channel audio
CN108093653B (zh) 语音提示方法、记录介质及语音提示系统
CN110176231B (zh) 音响输出系统、音响输出方法及存储介质
JP6316208B2 (ja) 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム
KR101796428B1 (ko) 정보 관리 시스템 및 정보 관리 방법
CN106067996B (zh) 语音再现方法、语音对话装置
CN110290468B (zh) 虚拟隔音通信方法、装置、系统、电子设备、存储介质
WO2019225201A1 (ja) 情報処理装置及び情報処理方法、並びに情報処理システム
US11234094B2 (en) Information processing device, information processing method, and information processing system
JP6201279B2 (ja) サーバ、サーバの制御方法および制御プログラム、情報処理システム、情報処理方法、携帯端末、携帯端末の制御方法および制御プログラム
JP2000207170A (ja) 情報処理装置および情報処理方法
US20150187370A1 (en) Information presentation system and method
US20120106744A1 (en) Auditory display apparatus and auditory display method
US20210183363A1 (en) Method for operating a hearing system and hearing system
JP2016206646A (ja) 音声再生方法、音声対話装置及び音声対話プログラム
WO2018020828A1 (ja) 翻訳装置および翻訳システム
JP5689774B2 (ja) 対話型情報発信装置、対話型情報発信方法、及びプログラム
WO2019017033A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2021006303A1 (ja) 翻訳システム、翻訳装置、翻訳方法、および翻訳プログラム
US20050129250A1 (en) Virtual assistant and method for providing audible information to a user
JP7087745B2 (ja) 端末装置、情報提供システム、端末装置の動作方法および情報提供方法
CN110753285A (zh) 降噪耳机的声音信号处理方法、装置、设备及存储介质
WO2012063415A1 (ja) 音声制御装置および音声制御方法
JP7284204B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
WO2024202805A1 (ja) 音響処理装置、情報送信装置及び音響処理システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant