CN116134803A - 交流系统 - Google Patents

交流系统 Download PDF

Info

Publication number
CN116134803A
CN116134803A CN202180060305.XA CN202180060305A CN116134803A CN 116134803 A CN116134803 A CN 116134803A CN 202180060305 A CN202180060305 A CN 202180060305A CN 116134803 A CN116134803 A CN 116134803A
Authority
CN
China
Prior art keywords
user
text
language
control unit
mobile communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202180060305.XA
Other languages
English (en)
Inventor
挂村笃
吉泽凉太
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Publication of CN116134803A publication Critical patent/CN116134803A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/06Selective distribution of broadcast services, e.g. multimedia broadcast multicast service [MBMS]; Services to user groups; One-way selective calling services

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

课题在于,对提高使用语言不同的用户彼此的信息传达的品质进行支援。解决手段在于,实施方式的交流系统经由各个用户分别携带的多个移动通信终端,将用户的发言语音向其他用户的移动通信终端进行广播传送,并且进行文本传送,以使接收的发言语音数据的发言语音识别结果在各移动通信终端中被同步显示。按各用户保持语言设定信息,进而,生成通过将发言语音识别结果翻译为不同的语言而得到的翻译文本。在发言语音数据的广播传送中,对接收的发言语音数据不进行翻译而向其他多个移动通信终端中的各个移动通信终端进行广播传送,在文本传送中,基于各用户的语言设定信息,将相应的语言的翻译文本向移动通信终端分别传送。

Description

交流系统
技术领域
本发明的实施方式涉及使用语音及文本的交流(信息共享、意愿沟通等)支援技术,尤其涉及使用语言的多语言支持技术。
背景技术
作为语音交流的一例,有收发器(transceiver)。收发器是兼具无线电波的发送功能和接收功能的无线机,1人的用户能够与多人的用户进行通话(单向或者双向的信息传达)。收发器的应用例能够举出施工现场、活动会场、酒店、旅馆等设施等。另外,出租汽车无线也能够作为收发器应用的一例举出。
现有技术文献:
专利文献:
专利文献1:日本特开2005-286979号公报
专利文献2:日本特开2020-120357号公报
发明内容
发明所要解决的课题
其目的在于,对提高进行组通话且使用语言不同的用户彼此的信息传达的品质进行支援。
用于解决课题的手段
实施方式的交流系统经由各个用户分别携带的多个移动通信终端,将用户的发言语音向其他用户的移动通信终端进行广播传送。本交流系统具备交流控制部、存储部和文本翻译部,所述交流控制部具有:第1控制部,将从移动通信终端接收的发言语音数据向其他多个移动通信终端中的各个移动通信终端进行广播传送;以及第2控制部,进行文本传送控制,以使对接收的发言语音数据进行语音识别处理而得到的发言语音识别结果在各所述移动通信终端中被同步显示;所述存储部按各用户存储语言设定信息;所述文本翻译部生成通过将发言语音识别结果翻译为不同的语言而得到的翻译文本。所述交流控制部在所述第1控制部中,对接收的所述发言语音数据不进行翻译而向其他多个移动通信终端中的各个移动通信终端进行广播传送。另外,在所述第2控制部中,基于各用户的语言设定信息,将相应的语言的所述翻译文本向所述移动通信终端分别传送。
附图说明
图1是第1实施方式的交流系统的网络构成图。
图2是第1实施方式的交流管理装置及用户终端各自的构成框图。
图3是表示第1实施方式的用户信息及组信息的一例的图。
图4是第1实施方式的用户终端上显示的画面例。
图5是用于说明第1实施方式的多语言支持功能(翻译文本传送)的图。
图6是用于说明第1实施方式的第1多语言支持功能(发言语音的广播传送及分用户翻译转换文本传送的功能)的图。
图7是表示第1实施方式的第1多语言支持功能的处理流程的图。
图8是第1实施方式的基于事例的第1多语言支持功能的说明图。
图9是用于说明第1实施方式的第2多语言支持功能(基于输入文本的多语言支持合成语音的广播传送及分用户翻译转换文本传送的功能)的图。
图10是表示第1实施方式的第2多语言支持功能的处理流程的图。
图11是第1实施方式的基于事例的第2多语言支持功能的说明图。
具体实施方式
(第1实施方式)
图1至图11是用于说明第1实施方式的图。图1是本实施方式的交流系统的网络构成图。交流系统以交流管理装置(以下称为管理装置)100为中心,提供使用语音及文本的信息传达支援功能。以下,以住宿设施等的设施运营管理作为一例,关于适用了交流系统的方式进行说明。
如图1所示,管理装置100与多个用户分别携带的各用户终端(移动通信终端)500以无线通信连接。管理装置100将从一个用户终端500接收的发言语音数据向其他用户终端500进行广播传送。
用户终端500例如是智能电话等多功能便携电话机、PDA(个人数码助手(PersonalDigital Assistant))、平板电脑型终端等可携带的便携终端(移动终端)。用户终端500具备通信功能、运算功能及输入功能,经由IP(互联网协议(Internet protocol))网或者移动通信线路网(Mobile communication network)以无线通信与管理装置100连接,并进行数据通信。
一个用户的发言语音向其他多个用户终端500广播传送的范围(或者后述的交流履历被同步显示的范围)被设定为交流组,登记有对象用户(现场用户)的各个用户终端500。
本实施方式的交流系统支援以多个用户各自能够以免提方式进行对话作为前提的用于信息共享或意愿沟通的信息传达。特别是,本交流系统具备供使用语言不同的各用户进行信息共享或意愿沟通的多语言支持功能,对提高进行组通话且使用语言不同的用户彼此的信息传达的品质进行支援。
近来,在日本国内,在需要组通话的作业现场中,形成包括仅能够理解日语的日语母语者(说日语者)与稍微能够理解日语的非日语母语者(说外语者)在内的交流组的情形日益增加。在这样的组交流中,从语言理解的观点出发,产生无法顺利地进行意愿沟通的课题。此外,与说话者的国籍无关。
针对这样的课题,虽然也考虑活用翻译技术,实现对说外语者翻译为日语以外的使用语言来使交流成立的环境,但并非是简单地翻译就可以。也就是说,组交流是以组通话为前提的业务的会话,使不擅长日语的说外语者在进行每天的业务中提高日语的交流能力也很重要。
另外,在将发言语音数据翻译为其他语言的发言语音数据的情况下,在精度及处理速度方面存在课题。首先,对发言语音数据进行语音识别处理以生成文本,并生成通过将语音识别结果翻译为期望的语言而得到的翻译转换文本。然后,需要使用翻译转换文本进行合成语音处理,生成翻译合成语音数据。因此,除了支持多语言的语音识别处理之外,还要持续进行对语音识别处理结果进行机器翻译并生成翻译转换文本的处理,生成翻译合成语音数据之前的时间变长(处理速度变慢),组通话的需要实时性的交流自身难以成立。另外,翻译合成语音数据的精度依赖于语音识别处理的精度和机器翻译的精度,因此如果处理精度低,则形成由于误转换而引起的错误联系或者难以实现意愿沟通的联系。因此,需要引入处理精度高的语音识别及机器翻译的技术,但如上所述,除了处理速度之外,在成本方面也不现实。
像这样,存在如下课题:将发言语音数据转换为多语言并生成翻译合成语音数据,需要很高的技术及费用,使组通话中的实时交流成立的难度很高。特别是,如果提供了错误的翻译合成语音数据,则交流变得不顺利,导致现场混乱,业务效率降低。需要一种考虑到顺利的交流与业务效率的平衡的机制,该机制用于实现说日语者与说外语者混合存在的交流组的意愿沟通。
于是,在本实施方式中,组通话中的经由用户终端500发言的发言语音数据不被翻译而以原本的发言语言进行广播传送,针对语音识别结果,生成各用户所设定的语言设定信息的各语言的翻译转换文本,并按使用语言向用户提供。通过像这样构成,能够抑制处理速度及翻译精度的降低并实现组通话的顺利交流。
此外,作为说外语者的一例,举出了稍微能够理解日语的非日语母语者,但即使包括几乎或者完全无法理解日语的非日语母语者,通过本交流系统也能够实现顺利交流的提高环境及促进环境。
图2是管理装置100及用户终端500各自的构成框图。此外,在以下的说明中,被称为第1翻译文本的是,将通过对发言语音数据进行语音识别而得到的语音识别结果翻译成的翻译转换文本(将语音识别结果翻译成的文本),被称为第2翻译文本的是,将输入文本翻译为该输入文本的语言以外的其他语言而得到的翻译转换文本(将输入文本翻译成的文本)。
管理装置100包含控制装置110、存储装置120及通信装置130。通信装置130进行与多个用户终端500各自之间的通信连接管理及数据通信控制,进行将一个用户的发言语音数据及其发言内容的文本信息向多个用户终端500中的各个用户终端500一齐发送的广播传送通信控制,提供组通话的交流环境。
控制装置110包括用户管理部111、交流控制部112、语言设定部112A、多语言支持型语音识别部113、多语言支持型语音合成部114及文本翻译部115而构成。存储装置120包括用户信息121、组信息122、交流履历(交流日志)信息123、多语言支持型语音识别词典124及多语言支持型语音合成词典125而构成。
多语言支持型语音识别部113及多语言支持型语音识别词典124实现支持日语、英语、汉语、西班牙语、法语、德语等各种语言的语音识别处理功能。与从用户终端500接收的用户的发言语音数据的语言相应地适用语音识别词典,生成与发言语音数据的语言相同的语言的语音识别结果。
多语言支持型语音合成部114及多语言支持型语音合成词典125也提供支持各种语言的语音合成功能。接收从用户终端500以文本输入的字符信息、或者从用户终端500以外的信息输入装置(例如,管理者、运营者或监督者所操作的移动终端或桌面PC)以文本输入的字符信息,生成所接收的字符的语言或者所接收的字符的语言以外的语言(第2翻译文本的语言)的合成语音数据。此外,构成语音合成数据的各语言的语音数据的素材是任意的。
用户终端500构成为包括通信/通话部510、交流应用控制部520、麦克风530、扬声器540、触摸面板等显示输入部550、以及存储部560。此外,扬声器540在实际上构成为包括耳机、头戴耳机(有线或者无线)等。
图3是表示各种信息的一例的图,用户信息121是利用本交流系统的用户登记信息。用户管理部111进行控制以使得能够经由规定的管理画面设定用户ID、用户名、属性、组。另外,用户管理部111管理各用户终端500中的向本交流系统的登入履历、以及登入的用户ID与该用户终端500的识别信息(用户终端500固有的MAC地址、固体识别信息等)之间的对应列表。
另外,用户信息121构成为按用户包括“设定语言”的项目作为语言设定信息,如后所述,各用户能够经由用户终端500选择并设定语言。
组信息122是用于对交流组进行识别的组识别信息。按交流组ID控制传达信息的收发及广播传送,并进行控制以使在不同的交流组间信息不混杂。在用户信息121中,能够将组信息122中登记的交流组与各用户建立关联。
本实施方式的用户管理部111提供如下功能:进行多个用户各自的登记控制并设定作为后述的第1控制(发言语音数据、合成语音数据的广播传送)及第2控制(用户的发言语音识别结果、第1翻译文本及第2翻译文本的文本广播传送)的对象的交流组。
此外,关于分组,也能够与导入本实施方式的交流系统的设施等相应地将设施分割到多个部门进行管理。例如,以住宿设施作为一例进行说明,也能够将服务员(行李搬运)、接待员、内务(清扫)设定为分别不同的组,构筑将客房管理按各个组进行细分的交流环境。作为其他观点,也可以考虑在职能上无需交流的情形。例如,菜品的上菜员与服务员(行李搬运)无需进行直接交流,因此能够分组。另外,也可以考虑在地理上无需交流的情形,例如,在A分店、B分店等在地理上远离而且无需频繁进行交流的情况等下,能够分组。
管理装置100的交流控制部112作为第1控制部和第2控制部的各控制部发挥功能。第1控制部将从一个用户终端500接收的发言语音数据或者基于第1翻译文本的合成语音数据向其他多个用户终端500中的各个用户终端500进行广播传送控制(组通话控制)。第2控制部将通过对接收的发言语音数据进行语音识别处理而得到的发言语音识别结果或者第2翻译文本作为用户彼此的交流履历123按照时间序列积蓄,并且进行文本传送控制以使交流履历123在包括发言的用户的用户终端500在内的全部用户终端500中被同步显示。
作为第1控制部的功能是提供组通话功能的发言语音数据和合成语音数据各自的广播传送。发言语音数据是用户所发声的语音数据。另外,合成语音数据是基于从用户终端500输入的文本信息而生成的合成语音数据。合成语音数据包括:以输入文本的语言生成的合成语音数据、以将输入文本的语言翻译为其他语言而得到的第2翻译文本的语言生成的合成语音数据。
作为第2控制部的功能是用户的发言语音识别结果、通过将发言语音识别结果翻译为其他语言而得到的第1翻译文本、以及通过将输入文本的语言翻译为其他语言而得到的第2翻译文本的文本广播传送。用户终端500中输入的语音及用户终端500中再现的语音全部被文本化并按照时间序列积蓄至交流履历123,且被控制为在各用户终端500中被同步显示。多语言支持型语音识别部113使用多语言支持型语音识别词典124进行语音识别处理,输出文本数据作为发言语音识别结果。关于语音识别处理,能够适用公知的技术。
交流履历信息123是各用户的发言内容与时间信息一起基于文本按照时间序列积蓄而成的日志信息。与各文本对应的语音数据能够作为语音文件事先存放在规定的存储区域中,例如,在交流履历123中记录语音文件的存放场所。交流履历信息123是按交流组分别生成并积蓄的。
此外,交流履历信息123也可以构成为积蓄语音识别结果、第1翻译文本、第2翻译文本的全部文本,换言之,将语音识别结果、输入文本、翻译为各语言的翻译文本全部积蓄。另外,也可以构成为不积蓄翻译文本,而积蓄语音识别结果和输入文本。
图4是表示各用户终端500上显示的交流履历123的一例的图。用户终端500各自能够从管理装置100实时地或者在规定的定时接收交流履历123,在多个用户间取得显示同步。各用户能够按照时间序列参照过去的交流日志。
如图4的例子那样,各用户终端500将自己的发言内容及自己以外的其他用户的发言内容按照时间序列显示在显示栏D中,而管理装置100中积蓄的交流履历123作为日志信息被共享。此外,在显示栏D中,能够对于与用户自身的发言语音对应的文本,显示麦克风标记H,对于发言者以外的其他用户,替代麦克风标记H而在显示栏D中显示扬声器标记M。
在本实施方式中,作为在多个用户间取得显示同步的文本传送的方式,包括对内容与语音识别结果相同但语言不同的文本进行显示同步的方式。另外,关于输入文本也是同样的,也包括对内容与从用户终端500输入的输入文本相同但语言不同的文本进行显示同步的方式。另一方面,如后所述,也能够将多个不同的语言设定为使用语言。在该情况下也是同样的,也包括将语音识别结果或输入文本与语言不同的文本一起显示或者合并记载显示的方式,还包括对语音识别结果或者输入文本的语言以外的其他多个不同的语言各自的文本进行显示的方式。
图5是用于说明本实施方式的多语言支持功能(翻译文本传送)的图。用户能够在图5所示的语言设定画面上,设定1个或者多个使用语言。也可以构成为,在设定多个使用语言时能够在设定的各语言间选择优先顺序(未图示)。
语言设定画面由语言设定部112A提供,用户终端500的交流应用控制部520向管理装置100发送在语言设定画面上选择的1个或者多个语言设定信息。用户管理部111将接收的语言设定信息作为用户信息121的设定语言按用户存放。
文本翻译部115是提供支持多个语言的机器翻译功能的处理部,在图5的例子中,如果以日语发言了“こんにちは”,则对语音识别结果的文本“こんにちは”进行机器翻译以生成与用户信息121中登记的各设定语言分别对应的第1翻译文本。例如,能够生成汉语“你好”(你:イ(单人旁)的旁边(右旁)为尔的简体字)、越南语“xin chao”(a是附加了尖音符的字符)的各翻译文本。关于生成的各翻译文本,由交流控制部112的第2控制部如图5所示向用户终端500传送与按用户选择的语言设定信息相应的语言的翻译文本。在图5的例子中,由于用户设定了多个语言,因此与日语的语音识别结果一起传送汉语及越南语的各翻译文本。此外,在仅选择了1个语言的情况下,显示一个语音识别结果或者1个翻译文本。
另一方面,被传送的文本显示方法如图5所示,能够将多个语言各自的翻译文本个别地显示,或者如由虚线包围的对白框那样,以与日语成组地将其他语言的翻译文本合并记载在1个对白框(显示框)中的方式显示。
图6是用于说明本实施方式的第1多语言支持功能(发言语音的广播传送及分用户翻译转换文本传送的功能)的图。
如图6所示,如果说日语者的用户发言,则日语的发言语音数据被发送至管理装置100,在多语言支持语音识别部113中,执行语音识别处理。语音识别结果是日语的文本信息。然后,语音识别结果被输出至文本翻译部115,文本翻译部115基于与交流组内的各用户的设定语言相应的1个或者多个语言中的各个语言,对语音识别结果进行机器翻译来生成语音识别结果的语言以外的其他语言的第1翻译文本(在有多个不同的语言的情况下是与各语言相应的多个第1翻译文本)。
交流控制部112在第1控制部中,对接收的日语的发言语音数据不进行翻译而原样向其他多个用户终端500中的各个用户终端500进行广播传送,即使是说日语者以外的说英语者或说汉语者等说外语者,也听到说日语者的日语语音。另一方面,交流控制部112在第2控制部中,基于各用户的语言设定信息,将相应的1个或者多个语言的翻译文本向用户终端500分别传送。在各个说外语者的用户终端500中,显示按用户设定的各语言的翻译文本。
图7是表示具备第1多语言支持功能的本系统的处理流程的图。
各用户在用户终端500中,启动交流应用控制部520,交流应用控制部520进行与管理装置100的连接处理。并且,从规定的登入画面输入自己的用户ID及密码并登入管理装置100。登入认证处理由用户管理部111执行。此外,在第一次登入后,能够省略用户ID及密码的输入操作,交流应用控制部520伴随着启动,使用第一次登入时输入的用户ID及密码自动地进行登入处理。
在登入后,管理装置100对于多个用户终端500中的各个用户终端500,自动地进行组通话模式下的通信通道建立处理,开通以管理装置100为中心的组通话通道。
另外,各用户从用户终端500访问管理装置100,设定使用语言(S501 a、S501b、S501c)。管理装置100将语言设定画面向用户终端500发送,从用户终端500接收语言设定信息(语言选择信息),并登记至用户信息121。
登入后的各用户终端500在任意的定时或者以规定的时间间隔,与管理装置100之间进行信息取得处理。
例如,如果以日语发言的用户A发言,则交流应用控制部520收集发言语音,并将发言语音数据向管理装置100发送(S502a)。管理装置100的多语言支持型语音识别部113对接收的发言语音数据进行语音识别处理(S101),并以日语文本输出发言内容的语音识别结果。交流控制部112将语音识别结果存储至交流履历123,并将发言语音数据存储至存储装置120(S102)。
文本翻译部115进行日语的语音识别结果的机器翻译处理,基于交流组内的各用户所设定的语言设定信息,生成1个或者多个的相应的各语言的翻译文本(第1翻译文本)(S103)。
交流控制部112将用户A的发言语音数据(日语)向发言的用户A以外的其他各个用户终端500进行广播发送。另外,为了显示同步,将交流履历123中存储的用户A的发言内容(日语)向包括用户A自身的交流组内的各用户终端500发送(S104)。此时,交流控制部112参照各用户的语言设定信息,将相应的各语言的翻译文本向各个用户终端500发送。
用户A以外的各用户终端500的交流应用控制部520进行所接收的发言语音数据(发言)的自动再现处理,进行发言语音输出(S502b、S502c),并且,包括用户A在内的全部用户终端500使与被语音输出的发言语音对应的文本形式的发言内容显示在显示栏D中(S502a、S503b、S503c)。
图8是基于事例的第1多语言支持功能的说明图。此外,关于与图7同样的处理附加相同标记并省略说明。
在图8的例子中,用户A是说日语者,语言设定信息仅设定为日语。用户B是说汉语者,语言设定信息设定为日语和汉语。用户C是说英语者,语言设定信息设定为英语、汉语、西班牙语。
对于以日语进行了发言的用户A(S510a),不传送发言语音数据,而仅传送语音识别结果并进行显示同步(S511a)。对于说汉语者的用户B,原样传送用户A的发言语音数据,进行日语的发言语音数据的再现处理(S510b),而且传送与设定的语言“汉语”对应的翻译文本、以及与设定语言“日语”对应的语音识别结果,并进行显示同步(S511b)。对于说英语者的用户C,原样传送用户A的发言语音数据,进行日语的发言语音数据的再现处理(S510c),而且传送与设定语言“英语”对应的翻译文本、与设定语言“汉语”对应的翻译文本、以及与设定语言“西班牙语”对应的翻译文本,并进行显示同步(S511c)。
图9是用于说明第2多语言支持功能(基于输入文本的多语言支持合成语音的广播传送及分用户翻译转换文本传送的功能)的图。
在图9的例子中,接收了在用户终端500中输入的文本的管理装置100以各用户所设定的(易于理解的)语言,提供基于输入文本的合成语音数据。如果说汉语者的用户以汉语进行了文本输入,则汉语的输入文本被发送至管理装置100,并被输出至文本翻译部115。文本翻译部115基于与交流组内的各用户的设定语言相应的1个或者多个语言中的各个语言,对汉语的输入文本进行机器翻译来生成汉语以外的其他语言的第2翻译文本(在有多个不同的语言的情况下是与各语言相应的多个第2翻译文本)。
接下来,与上述的第1多语言支持功能不同之处在于,交流控制部112进行控制,使得仅在文本输入时,基于文本以各语言生成合成语音数据。多语言支持语音合成部114使用基于输入文本生成的翻译文本,生成各语言的合成语音数据。然后,在第1控制部中,基于各用户的语言设定信息,将按用户对应的语言的合成语音数据向其他多个用户终端500中的各个用户终端500传送。在该情况下,各用户如果是说日语者,则能够听到日语的合成语音数据,如果是说英语者,则能够听到英语的合成语音数据,提供由用户所设定的语言构成的合成语音数据。
另一方面,交流控制部112在第2控制部中,基于各用户的语言设定信息,将相应的1个或者多个语言的翻译文本向用户终端500分别传送。在各个说外语者的用户终端500中,显示按用户设定的各语言的翻译文本。
图10是表示具备第2多语言支持功能的本系统的处理流程的图。关于与上述的图8的通信通道建立处理及使用语言设定处理相当的处理,由于说明重复而加以省略。
例如,如果说汉语者的用户B进行了用于组通话的文本输入,则交流应用控制部520向管理装置100发送被输入的文本(S520b)。管理装置100的文本翻译部115基于交流组内的各用户所设定的语言设定信息,生成相应的各语言的1个或者多个翻译文本(第2翻译文本)(S1101)。
交流控制部112的多语言支持语音合成部114使用从文本翻译部115输出的第2翻译文本,生成各语言的合成语音数据(81102)。交流控制部112将输入文本等存储至交流履历123,并将合成语音数据存储至存储装置120(S1103)。
交流控制部112针对除了输入了文本的用户B以外的其他各个用户终端500,选择与分用户设定语言相应的语言的合成语音数据并进行广播发送。另外,为了显示同步,将输入文本的发言内容(汉语)向包括用户B自身的交流组内的各用户终端500发送(S1104)。此时,交流控制部112参照各用户的语言设定信息,将相应的各语言的翻译文本向各个用户终端500发送。
用户B以外的各用户终端500的交流应用控制部520进行所接收的发言语音数据(发言)的自动再现处理,进行发言语音输出(S520a、S520c),并且,包括用户B在内的全部用户终端500使与设定语言相应的文本形式的发言内容显示在显示栏D中(S521a、S521b、S521c)。
图11是基于事例的第2多语言支持功能的说明图。此外,关于与图10同样的处理,附加相同标记并省略说明。
在图11的例子中也同样,用户A是说日语者,语言设定信息仅设定为日语。用户B是说汉语者,语言设定信息设定为日语和汉语。用户C是说英语者,语言设定信息设定为英语、汉语、西班牙语。
作为非日语母语者的用户B以汉语作为主要的使用语言,以文本输入用于组通话的联系事项(S530b)。对于进行了文本输入的用户B,不传送合成语音数据,而传送与用户B的设定语言相应的语言的文本并进行显示同步(S531b)。在图11的例子中,显示其自身输入的汉语的文本以及翻译的日语的文本。
对于说日语者的用户A,传送被翻译为日语的合成语音数据,并以日语进行语音数据的再现处理(S530a),而且传送与设定的语言“日语”对应的翻译文本,并进行显示同步(S531b)。对于说英语者的用户C,传送被翻译为英语的合成语音数据,进行英语的语音数据的再现处理(S530c),而且传送与设定语言“英语”对应的翻译文本、与设定语言“汉语”对应的输入文本、以及与设定语言“西班牙语”对应的翻译文本,并进行显示同步(S531c)。
像这样,本交流系统具备第1多语言支持功能及第2多语言支持功能,实现如下环境,该环境下,能够抑制处理速度及翻译精度的降低从而谋求组通话的交流顺利。
例如,对于非日语母语者而言,即使能够理解日语,有时也难以进行日语的发音。在该情况下,通过第1多语言支持功能,提供非母语者易于理解的语言的翻译文本,因此能够对意愿沟通进行支援。另外,通过第2多语言支持功能,不是通过发言,而能够通过文本输入顺利地进行组通话。在图9~图11的例子中,以非母语者利用日语以外的语言进行文本输入的方式作为一例进行了说明,但也可以使得非日语母语者利用日语进行文本输入。即,对于非日语母语者而言,也存在虽然不擅长日语的发音但能够以某种程度理解文本的情况,在该情况下,通过由非母语者利用日语进行文本输入,即使不擅长日语的发音也能够顺利地进行基于组通话的交流。
另外,对于非日语母语者而言,即使能够理解日语,有时也难以听懂日语,或者有时对于非日语母语者而言日语文本更易于理解。在这样的情形中,通过本交流系统的第1多语言支持功能及第2多语言支持功能,能够提供顺利的组通话的交流环境。
此外,本交流系统的第1多语言支持功能及第2多语言支持功能如上所述,即使各自单独也能够提供顺利的组通话的交流环境。
也就是说,作为具备第1多语言支持功能的系统,
是经由各个用户分别携带的多个用户终端500将用户的发言语音向其他用户的用户终端500进行广播传送的交流系统,
交流控制部112具有:第1控制部,将从用户终端500接收的发言语音数据向其他多个用户终端500中的各个用户终端500进行广播传送;以及第2控制部,进行文本传送控制,以使对接收的发言语音数据进行语音识别处理而得到的发言语音识别结果在各用户终端500中被同步显示。
进而构成为具备:存储部,按各用户存储语言设定信息;以及文本翻译部115,生成通过将发言语音识别结果翻译为不同的语言而得到的翻译文本。
另外,能够采用如下系统构成:交流控制部112在第1控制部中,对接收的发言语音数据不进行翻译而向其他多个移动通信终端中的各个移动通信终端进行广播传送,并且在第2控制部中,基于各用户的语言设定信息,将相应的语言的翻译文本向移动通信终端分别传送。
另外,作为具备第2多语言支持功能的系统,
是经由各个用户分别携带的多个用户终端500将用户的发言语音向其他用户的用户终端500进行广播传送的交流系统,
交流控制部112具有:第1控制部,将从用户终端500接收的发言语音数据向其他多个用户终端500中的各个用户终端500进行广播传送;以及第2控制部,进行文本传送控制,以使对接收的发言语音数据进行语音识别处理而得到的发言语音识别结果在各用户终端500中被同步显示。
进而构成为具备:存储部,按各用户存储语言设定信息;以及文本翻译部115,生成通过将发言语音识别结果翻译为不同的语言而得到的翻译文本。
另外,文本翻译部115构成为:基于各用户的语言设定信息,生成将从用户终端500接收的输入文本翻译为不同的语言而得到的翻译文本,多语言支持型语音合成部114能够构成为:使用基于输入文本生成的翻译文本,生成各语言的合成语音数据。
能够采用如下系统构成:交流控制部112在第1控制部中,基于各用户的语言设定信息,将相应的语言的合成语音数据向其他多个用户终端500中的各个用户终端500传送,并且在第2控制部中,基于各用户的语言设定信息,将输入文本被翻译为相应的语言而得到的翻译文本向用户终端500分别传送。
以上说明了本实施方式,但交流管理装置100及用户终端500的各功能能够通过程序实现,为了实现各功能而预先准备的计算机程序被存放于辅助存储装置,CPU等控制部将辅助存储装置中存放的程序读出至主存储装置,并由控制部执行被读出至主存储装置的该程序,由此能够使各部的功能进行动作。
另外,上述程序也能够在被记录于计算机可读取的记录介质的状态下向计算机提供。作为计算机可读取的记录介质,可以举出CD-ROM等光盘、DVD-ROM等相变型光盘、MO(磁光(Magnet Optical))或MD(迷你盘(Mini Disk))等光磁盘、软盘(Floppy)(注册商标)或可移动硬盘等磁盘、紧凑式闪存(注册商标)、智能介质、SD存储卡、存储棒等存储卡。另外,作为记录介质也包含为了实现本发明的目的而特别设计并构成的集成电路(IC芯片等)等硬件装置。
此外,说明了本发明的实施方式,但该实施方式作为例子来提示,意图不在于限定发明的范围。该新的实施方式能够以其他各种方式实施,在不脱离发明的主旨的范围内能够进行各种省略、置换、变更。这些实施方式及其变形包含在发明的范围或主旨中,并包含在专利权利要求书所记载的发明及其等同的范围中。
附图标记说明
100 交流管理装置
110 控制装置
111 用户管理部
112 交流控制部(第1控制部、第2控制部)
112A 语言设定部
113 多语言支持型语音识别部
114 多语言支持型语音合成部
115 文本翻译部
120 存储装置
121 用户信息
122 组信息
123 交流履历信息
124 多语言支持型语音识别词典
125 多语言支持型语音合成词典
130 通信装置
500 用户终端(移动通信终端)
510 通信/通话部
520 交流应用控制部
530 麦克风(集音部)
540 扬声器(语音输出部)
550 显示/输入部
560 存储部
D 显示栏

Claims (5)

1.一种交流系统,经由各个用户分别携带的多个移动通信终端,将用户的发言语音向其他用户的移动通信终端进行广播传送,其特征在于,具备:
交流控制部,具有:第1控制部,将从移动通信终端接收的发言语音数据向其他多个移动通信终端中的各个移动通信终端进行广播传送;以及第2控制部,进行文本传送控制,以使对接收的发言语音数据进行语音识别处理而得到的发言语音识别结果在各所述移动通信终端中被同步显示;
存储部,按各用户存储语言设定信息;以及
文本翻译部,生成通过将发言语音识别结果翻译为不同的语言而得到的翻译文本,
所述交流控制部,
在所述第1控制部中,对接收的所述发言语音数据不进行翻译而向其他多个移动通信终端中的各个移动通信终端进行广播传送,并且,
在所述第2控制部中,基于各用户的语言设定信息,将相应的语言的所述翻译文本向所述移动通信终端分别传送。
2.如权利要求1所述的交流系统,其特征在于,
所述文本翻译部基于各用户的语言设定信息,生成将从所述移动通信终端接收的输入文本翻译为不同的语言而得到的所述翻译文本,
所述交流系统还具备:
语音合成部,使用基于所述输入文本生成的所述翻译文本,生成各语言的合成语音数据,
所述交流控制部,
在所述第1控制部中,基于各用户的语言设定信息,将相应的语言的所述合成语音数据向其他多个移动通信终端中的各个移动通信终端传送,并且
在所述第2控制部中,基于各用户的语言设定信息,将所述输入文本被翻译为相应的语言而得到的所述翻译文本向所述移动通信终端分别传送。
3.如权利要求1或者2所述的交流系统,其特征在于,
所述交流控制部具备:语言设定部,受理经由所述移动通信终端输入的各用户的所述语言设定信息,
所述语言设定部进行控制,使得能够对1个用户设定1个或者多个语言,
所述交流控制部在所述第2控制部中,在所述语言设定信息中设定有多个语言的情况下,将多个语言各自的所述翻译文本向所述移动通信终端传送。
4.如权利要求1至3中任1项所述的交流系统,其特征在于,
所述交流控制部,
在所述第2控制部中,将包括基于各用户的语言设定信息的相应语言的所述翻译文本以及所述语音识别结果在内的发言文本向所述移动通信终端分别传送,并进行控制以使被广播传送的发言语音数据的语言的所述语音识别结果与所述翻译文本被合并记载并显示。
5.一种由管理装置执行的程序,该管理装置经由各个用户分别携带的多个移动通信终端,将用户的发言语音向其他用户的移动通信终端进行广播传送,该程序的特征在于,使所述管理装置实现:
第1功能,将从移动通信终端接收的发言语音数据向其他多个移动通信终端中的各个移动通信终端进行广播传送;
第2功能,进行文本传送控制,以使对接收的发言语音数据进行语音识别处理而得到的发言语音识别结果在各所述移动通信终端中被同步显示;
第3功能,按各用户存储语言设定信息;以及
第4功能,生成通过将发言语音识别结果翻译为不同的语言而得到的翻译文本,
所述第1功能对接收的所述发言语音数据不进行翻译而向其他多个移动通信终端中的各个移动通信终端进行广播传送,并且
所述第2功能基于各用户的语言设定信息,将相应的语言的所述翻译文本向所述移动通信终端分别传送。
CN202180060305.XA 2020-08-17 2021-07-15 交流系统 Withdrawn CN116134803A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020137474A JP2022033526A (ja) 2020-08-17 2020-08-17 コミュニケーションシステム
JP2020-137474 2020-08-17
PCT/JP2021/026570 WO2022038928A1 (ja) 2020-08-17 2021-07-15 コミュニケーションシステム

Publications (1)

Publication Number Publication Date
CN116134803A true CN116134803A (zh) 2023-05-16

Family

ID=80323575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180060305.XA Withdrawn CN116134803A (zh) 2020-08-17 2021-07-15 交流系统

Country Status (4)

Country Link
US (1) US20230281401A1 (zh)
JP (1) JP2022033526A (zh)
CN (1) CN116134803A (zh)
WO (1) WO2022038928A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7488625B1 (ja) 2023-11-15 2024-05-22 テレネット株式会社 情報処理システム、情報処理方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017191959A (ja) * 2016-04-11 2017-10-19 株式会社日立製作所 Tv会議システムでの多言語音声翻訳システム
JP2020120356A (ja) * 2019-01-28 2020-08-06 株式会社日立情報通信エンジニアリング コミュニケーションシステムおよびそのコミュニケーション方法

Also Published As

Publication number Publication date
US20230281401A1 (en) 2023-09-07
WO2022038928A1 (ja) 2022-02-24
JP2022033526A (ja) 2022-03-02

Similar Documents

Publication Publication Date Title
AU2017202111B2 (en) Speech recognition and translation terminal, method, and computer readable medium
US5995590A (en) Method and apparatus for a communication device for use by a hearing impaired/mute or deaf person or in silent environments
US8275602B2 (en) Interactive conversational speech communicator method and system
US20150149149A1 (en) System and method for translation
US10250846B2 (en) Systems and methods for improved video call handling
JP6296821B2 (ja) 業務支援システム
US20200125643A1 (en) Mobile translation application and method
KR101406981B1 (ko) 다국어 메시지 번역 시스템 및 그 방법
JP2017120616A (ja) 機械翻訳方法、及び、機械翻訳システム
KR20140078258A (ko) 대화 인식을 통한 이동 단말 제어 장치 및 방법, 회의 중 대화 인식을 통한 정보 제공 장치
US9110888B2 (en) Service server apparatus, service providing method, and service providing program for providing a service other than a telephone call during the telephone call on a telephone
CN111554280A (zh) 对利用人工智能的翻译内容和口译专家的口译内容进行混合的实时口译服务系统
CN116134803A (zh) 交流系统
KR101351264B1 (ko) 음성인식 기반의 메시징 통역서비스 제공 시스템 및 그 방법
US9277051B2 (en) Service server apparatus, service providing method, and service providing program
TW201346597A (zh) 多語言即時翻譯系統
WO2020241701A1 (ja) コミュニケーション管理装置
US20180300316A1 (en) System and method for performing message translations
JP2018018490A (ja) 端末装置、翻訳方法、及び、翻訳プログラム
JP2001251429A (ja) 携帯電話を使用した音声翻訳システムおよび携帯電話
JP2020119043A (ja) 音声翻訳システムおよび音声翻訳方法
US20170185587A1 (en) Machine translation method and machine translation system
US20090141873A1 (en) System for idiom concurrent translation applied to telephonic equipment, conventional or mobile phones, or also a service rendered by a telephonic company
CN105930322A (zh) 一种远程高效转换无稿同声传译装置系统
US20230259719A1 (en) Multilingual conversation tool

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20230516

WW01 Invention patent application withdrawn after publication