JP2002244842A - Voice interpretation system and voice interpretation program - Google Patents

Voice interpretation system and voice interpretation program

Info

Publication number
JP2002244842A
JP2002244842A JP2001044794A JP2001044794A JP2002244842A JP 2002244842 A JP2002244842 A JP 2002244842A JP 2001044794 A JP2001044794 A JP 2001044794A JP 2001044794 A JP2001044794 A JP 2001044794A JP 2002244842 A JP2002244842 A JP 2002244842A
Authority
JP
Grant status
Application
Patent type
Prior art keywords
language
information
interpretation
speaker
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001044794A
Other languages
Japanese (ja)
Inventor
Tatsu Ifukube
達 伊福部
Original Assignee
Bug Inc
Tatsu Ifukube
Japan Science & Technology Corp
達 伊福部
株式会社ビー・ユー・ジー
科学技術振興事業団
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00335Recognising movements or behaviour, e.g. recognition of gestures, dynamic facial expressions; Lip-reading

Abstract

PROBLEM TO BE SOLVED: To support communications in different language systems between a speaker and a user by providing the user with language information and non-language information from the speaker simultaneously. SOLUTION: A computing unit 1 recognizes voice inputted by the speaker 10 through a microphone or the like at a voice recognition part 60 and converts the same into language system which the user 40 has acquired (interpretation) at an interpretation part 85 to provide language information (verbal information, i.e., character string). The character string as a result of the voice recognition and interpretation is outputted on the permeable display device 2. The permeable display device 2 indicates the character string of language information inputted by the computing device 1 and is provided with a permeable part (permeable display) for providing non-language information (non-verbal information, for example, notions of parts of the speaker's face such as lip and eyes, reading, gesture, sign language, expression or some of those) from the speaker 10.

Description

【発明の詳細な説明】 DETAILED DESCRIPTION OF THE INVENTION

【0001】 [0001]

【発明の属する技術分野】本発明は、音声通訳システム及び音声通訳プログラムに係り、特に、音声認識結果データである文字列の情報(言語情報:バーバル情報)だけでなく、話し手(話者)の表情、唇、ジェスチャー等の言語情報以外の情報(非言語情報:ノンバーバル情報)を用いて、話者とユーザとの異なる言語体系間におけるコミュニケーションの補助を行うことができる音声通訳システム及び音声通訳プログラムに関する。 BACKGROUND OF THE INVENTION The present invention relates to a voice interpretation system and voice interpreter program, in particular, information of a string which is the result of speech recognition data (language information: verbal information), as well as the speaker of the (speaker) expression, lips, other than the language information of the gesture, such as information (nonverbal: nonverbal information) using a speaker and voice interpretation system and audio interpreter capable of performing an auxiliary communication between different language system with the user on.

【0002】 [0002]

【従来の技術】近年、高度情報化および超高齢化の社会においては、各種情報を受け取る感覚器官(例えば、視覚、聴覚等)の能力が低い人達(例えば、高齢者、聴覚障害者等)のために、これらの感覚器官の能力を補うための各種補助装置(例えば、補聴器等)の開発が切望されている。 Recently, in the society of advanced information and ultra aging, sensory organs (e.g., visual, auditory, etc.) to receive various kinds of information capability is low people (e.g., the elderly, deaf, etc.) for various auxiliary equipment to supplement the ability of these sensory organs (e.g., hearing aids, etc.) development has been desired. 特に、人間同士のコミュニケーションでは、 In particular, in the communication of human beings,
音声が非常に重要な役割を果たしており、聴覚障害者のための様々な補助方式が研究されている。 Voice has played a very important role, a variety of auxiliary system for the hearing impaired have been studied. 例えば、大学の講義において、講義内容を素早く書き取り、話者又は講義用黒板の周辺に字幕を表示する手法がある(参考: For example, in university lectures, quickly dictation the lecture content, there is a method to display the subtitles in the vicinity of the speaker or lecture for the blackboard (Reference:
小林正幸・石原保志・西川俊・高橋秀知、ルビ付きリアルタイム字幕提示システムの試作;筑波技術短期大学テクノレポート、1996)。 Masayuki Kobayashi Yasushi Ishihara Shun Nishikawa Takahashi Hidetomo, prototype of ruby ​​with real-time Captioning System; Tsukuba College of Technology techno report, 1996).

【0003】 [0003]

【発明が解決しようとする課題】しかしながら、上述の手法では、第三者の助けが必要であり、例えば、聴覚障害者が単独で外出する場合での利用は困難であることが想定される。 The object of the invention is to be Solved However, in the above-described method, it is necessary the help of a third party, for example, it is assumed use in case of hearing impaired people to go out alone is difficult. このように、未だに聴覚障害者が日常的に利用することができる補助装置は存在していない。 In this way, still deaf does not exist auxiliary device that can be used on a daily basis. したがって、聴覚障害者のための補助装置は、今後ますます増え続けるであろう高齢難聴者、又は完全聴覚障害者にとっても有用であり、その必要性は今後とも高まると考えられる。 Therefore, the auxiliary device for the hearing impaired is also useful for the future increasingly will continue to increase elderly hard of hearing, or completely deaf, the need is considered to increase in the future.

【0004】一方、近年、入力された音声を認識して文字列に変換し、この文字列を、例えば、コンピュータのモニタディスプレイやテレビの字幕として表示する、いわゆる音声認識方法が普及している。 On the other hand, in recent years, into a string recognizes the voice input, the string, for example, displayed as a computer monitor display or TV caption, so-called speech recognition method has become widespread. この音声認識方法は、雑音の多い環境(すなわち日常の生活空間)で不特定話者を対象に認識を行った場合、一般には、50〜6 The voice recognition method, in the case of performing the recognition to target the unspecified speaker in a noisy environment (ie day-to-day living space), generally, 50-6
0%程度の認識率しか確保できないため、特定の用途での利用に限られているのが現状である。 Since only recognition rate of about 0% can not be secured, at present it is limited to use in a particular application.

【0005】しかし、この現状は、音声認識システムを、従来のようにマン・マシン・インターフェースとして捉えた結果であり、この音声認識システムを、人間を対象としたマン・マン・インターフェースとして捉えた場合、人間は、入力音声の完全な音声認識が行われなくてもコミュニケーションにおける前後の文脈などから欠落した情報を類推することができる(参照:齊藤幹、失聴者のための音声認識技術を利用したマン・マン・インターフェースに関する研究;北海道大学大学院工学研究科修士論文、19992)。 [0005] However, this status quo, the voice recognition system, a result that capture as a conventional man-machine interface as described above, when the speech recognition system, was captured as was human subjects Man Man interface , humans, not be performed full speech recognition of the input speech can be analogized the missing information from, for example, before and after a context in Communication (see Miki Saito, using speech recognition technology for the loss listener research on Man Man interface; Hokkaido University graduate School of Engineering, Master's thesis, 19992).

【0006】ここで、本発明に関連する技術について説明する。 [0006] Here, a description will be given of technology related to the present invention. 本発明者らは、コミュニケーションでは、話者の音声以外にも唇、目等の顔の部分の動き、読話(唇の動きを読むこと)、ジェスチャー、手話、表情といった非言語情報(ノンバーバル情報)も重要であり、さらに、このノンバーバル情報は、マン・マシン・インターフェースで利用するには非常に高度な技術を必要とするが、マン・マン・インターフェースであれば、人間の視覚を用いることで、容易に取得できる点に着目した。 The present inventors have found that, in the communication, lips in addition to voice of the speaker, the eyes of the face of the part of the movement, speechreading (to read the movement of the lips), gestures, sign language, non-verbal information, such as facial expression (non-verbal information) also important, furthermore, the non-verbal information, requires a very advanced technique to use in a man-machine interface, if man-man interface, the use of the human vision, attention is paid to the point that can be easily obtained.

【0007】また、聴覚障害者(ユーザ)は、上述の「読話」やジェスチャーで伝える「手話」を習得している場合が多く、この読話、手話等によって、話者の言葉をある程度理解できることが想定される。 [0007] In addition, the hearing impaired (user), in many cases, they have mastered the "sign language" to communicate with "speechreading" and gestures of the above-mentioned, this speechreading, by sign language, etc., that the words of the speaker can be some understanding is assumed. このため、音声認識結果の文字列(バーバル情報)と、読話や手話から得られるノンバーバル情報とを、聴覚障害者が同時に受け取れるようにして、音声認識結果の文字列を聴覚障害者に呈示することが必要となる。 Therefore, the speech recognition result string (verbal information), and nonverbal information obtained from speech reading and sign language, and be able to receive deaf simultaneously, to present a string of speech recognition results to the deaf Is required.

【0008】この際、考慮すべき点は、読話や手話で文意を理解する能力は、聴覚障害者の失聴時期、残存聴力などに大きく依存している点と、たとえ高性能の音声認識装置による音声認識結果であっても認識率が必ず10 [0008] At this time, considerations, ability to understand meaning of a sentence in speechreading and sign language, deaf lost 聴時 period, and that it greatly depends on the residual hearing, if the speech recognition performance apparatus sure 10 is also recognition rate a speech recognition result by
0%であることはなく、大抵の場合、文字列には誤りが含まれているため、音声認識結果である文字を全て呈示してしまうと、文意を誤って理解する場合が想定される点である。 Not be 0% in most cases, since the string contains an error, the thus presents all the characters is a speech recognition result, is assumed when the misunderstand the meaning of a sentence is the point. このため、例えば、聴覚障害者の読話や手話による文理解能力(すなわち、読話や手話の習熟度)に応じて、呈示する文字列を表示する割合を、聴覚障害者自身で設定可能とすることが必要である。 Thus, for example, deaf speechreading and sentence comprehension ability of sign language (i.e., proficiency speechreading and sign language) according to the ratio of displaying a character string to be presented, to be set by the hearing impaired themselves is necessary.

【0009】さらに、話者が、ユーザとのコミュニケーションにおいて、ユーザの獲得している言語体系(例えば、母国語)とは異なる言語体系(例えば、外国語)を用いた場合、話者とユーザ間のコミュニケーションを円滑に行うには、話者による言語情報を、ユーザ(受け手)の獲得している言語体系やこの言語体系に基づいた読話や手話などの文理解能力で理解できる言語情報に変換(通訳)することが必要となる。 [0009] In addition, the speaker is, in communication with the user, the language system (for example, the native language), which won the user a different language system is (for example, foreign language) is used, between the speaker and the user of to smoothly perform a communication, converts the language information by the speaker, the language information that can be understood in the statement ability to understand, such as speechreading and sign language based on the language system and the language system that has earned the user (recipient) ( interpretation) it is necessary to.

【0010】本発明は、以上の点に鑑み、話者による言語情報と非言語情報とを、同時にユーザに呈示することで、異なる言語体系間の話者とユーザとのコミュニケーションの補助を行うことを目的とする。 [0010] The present invention has been made in view of the above, the language information and the non-language information by the speaker, by presenting to the user at the same time, to perform an auxiliary communication between speakers and users of different language systems With the goal. また、本発明は、ユーザの特性と音声認識装置の性能に応じて、読話、手話による非言語情報と、音声認識及び通訳結果である言語情報とを、同時にユーザに呈示することを目的としている。 Further, the present invention, depending on the capability of the user characteristics and speech recognition device, speech reading, and nonverbal sign language, a language information is a voice recognition and interpretation result are intended to be presented to the user at the same time . また、本発明は、特に、読話や手話による文理解能力が低い中途失聴者であっても、円滑なコミュニケーションを図ることができることを目的とする。 Further, the present invention is, in particular, even post-lingual deafness is lower sentence comprehension ability of speechreading and sign language, and it is an object can be achieved smooth communication.

【0011】 [0011]

【課題を解決するための手段】本発明の第1の解決手段によると、異なる言語体系間のコミュニケーションを補助するための音声表示システムであって、入力された音声を認識して言語情報に変換して出力する演算装置と、 According to the first solving means of the present invention, in order to solve the problems], an audio display system for assisting the communication between different language system, it recognizes the speech input to the language information conversion an arithmetic unit which to output,
前記言語情報を表示すると共に、話者からの非言語情報を得るための透過部を含む透過型表示装置とを備え、前記演算装置は、該音声を入力する音声入力部と、該音声入力部から入力された音声を認識するための音声認識部と、前記音声認識部で音声認識された言語情報を、異なる言語体系に通訳する通訳部と、前記透過型表示装置への表示状態を設定するためのレイアウト設定部と、前記レイアウト設定部の設定に従って、前記音声認識部により音声認識され、且つ、前記通訳部で通訳された結果を、前記透過表示装置に出力する出力部とを有する音声通訳システムを提供する。 And displays the language information, and a transmission type display device including a transmissive portion for obtaining the non-verbal information from the speaker, the arithmetic device, an audio input unit for inputting a voice, the voice input unit to set a voice recognition unit for recognizing the voice input, the language information speech recognition by the speech recognition unit, and interpretation unit for interpreting the different language system, the display state to the transmissive display device from according to the layout setting unit and the setting of the layout setting unit for, it is speech recognition by the speech recognition unit, and the voice interpretation and an output unit for the result of the interpretation by the interpreting unit, and outputs to the transmission display device to provide a system.

【0012】本発明の第2の解決手段によると、入力された音声を認識して言語情報に変換して出力する演算装置と、前記言語情報を表示すると共に話者からの非言語情報を得るための透過部を含む透過型表示装置とを備えた異なる言語体系間のコミュニケーションを補助するための音声表示システムに用いられる音声表示プログラムであって、該音声を入力する音声入力手順と、音声認識された文字列の尤度についての予め設定された閾値に応じて、該尤度が該閾値より低いときは、表示される文字列を非文字で表示するように認識するようにした、該音声入力手順から入力された音声を認識するための音声認識手順と、前記音声認識手順により音声認識された言語情報を、異なる言語体系に通訳する通訳手順と、前記音声認識手順により [0012] According to a second aspect of the present invention, obtained an arithmetic unit that converts the language information to recognize the voice input, a non-verbal information from the speaker and displays the language information an audio display program used for audio presentation system for assisting the communication between different language system that includes a transmissive display device including a transmissive portion for a voice input procedure for inputting a voice, speech recognition depending on the preset threshold value for likelihood of character strings, when 該尤 degree is lower than the threshold value, and to recognize to display a character string displayed in a non-character, voice a voice recognition procedure for recognizing a voice input from the input procedure, the language information speech recognition by the speech recognition procedure, and interpretation procedures for interpreting the different language system, by the speech recognition procedure 声認識され、且つ、前記通訳手順により通訳された結果を、前記透過表示装置に出力する出力手順とをコンピュータに実行させるための音声通訳プログラムを提供する。 It is voice recognition, and provides a sound interpretation program for executing the result of the interpretation by the interpreter procedure, and an output procedure for output to the transmissive display device to the computer.

【0013】また、本発明は、誤りを含む音声認識及び通訳結果データである言語情報(文字列)を、透過型表示装置(メガネディスプレイ)上に表示することにより、この透過型メガネディスプレイを用いるユーザは、 Further, the present invention is by displaying language information is a voice recognition and interpretation result data including the error (string), on the transmission type display device (spectacles display), using the transmission type spectacle display the user,
話者の前に表示された文字列だけでなく、話者の唇、目等の顔の部分の動き、読話、ジェスチャー、手話、表情などを含む非言語情報を、同時に見ることができる。 Not only the string that is displayed in front of the speaker, the speaker of the lips, the movement of the portion of the face of the eye, etc., speechreading, gestures, sign language, non-verbal information, including facial expressions, can be seen at the same time. これにより、ユーザが聴覚障害者であっても、話者の文意を理解しやすくなり、異なる言語体系間におけるユーザと話者間の円滑なコミュニケーションを図ることができる。 As a result, even if the user is a deaf, makes it easier to understand the meaning of a sentence of the speaker, it is possible to achieve a smooth communication between the user and the speaker in between the different language system.

【0014】 [0014]

【発明の実施の形態】以下、図面を用いて本発明の実施の形態を詳細に説明する。 DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, the embodiments of the present invention will be described in detail with reference to the drawings. 図1は、本発明に関する音声通訳システム100の概略構成図である。 Figure 1 is a schematic configuration diagram of a speech interpretation system 100 relating to the present invention. 音声通訳システム100は、例えば、携帯型のコンピュータである演算装置1、透過型メガネディスプレイである透過型表示装置2を含む。 Speech interpretation system 100 includes, for example, computing device 1 is a portable computer, a transmissive display device 2 is a transmission type spectacle display. この音声通訳システム100は、話者1 The speech interpretation system 100, the speaker 1
0とユーザ(例えば、聴覚障害者など)40間の異なる言語体系間におけるコミュニケーションを補助するためのシステムである。 0 user is a system for assisting the communication between different language system that between (eg, hearing impaired, etc.) 40. なお、異なる言語体系間におけるコミュニケーションとは、例えば、話者10がユーザ40 In addition, communication and is in between the different language system, for example, the speaker 10 user 40
の獲得している言語体系(例えば、母国語)とは異なる言語体系(例えば、外国語)を用いて、ユーザ40とのコミュニケーションを行う場合を想定している。 Language system that is the acquisition (for example, native language) and using a different language system (for example, a foreign language), it is assumed a case in which the communication with the user 40.

【0015】演算装置1は、話者10により図示しないマイクロホン等を介して入力された音声を認識し、さらにユーザ40の獲得している言語体系に変換(通訳)することにより、言語情報(バーバル情報であって、ここでは、文字列)を得る。 The arithmetic unit 1, by recognizing the voice input through a microphone or the like (not shown) by the speaker 10, converted into a language system that further acquisition of the user 40 (interpretation), language information (verbal an information, here, to obtain a character string). この音声認識及び通訳の結果である文字列を透過型表示装置2に出力する。 And it outputs the character string is a result of the speech recognition and interpretation in the transmissive display device 2. 透過型表示装置2は、演算装置1により入力された言語情報である文字列を表示すると共に、話者10からの非言語情報(ノンバーバル情報であって、例えば、話者10の唇、 Transmissive display device 2, and displays the character string is language information input by the operation unit 1, a non-language information (nonverbal information from speaker 10, for example, the speaker 10 lips,
目等の顔の部分の動き、読話、ジェスチャー、手話、表情のいずれか又は複数を含む:図中、点線の矢印)を得るための透過部(透過性ディスプレイ)を備える。 Movement of the portion of the face of the eye, etc. including speechreading, gestures, sign language, either or more expressions: comprising in the figure, transmission unit for obtaining the dotted arrow) to (transmissive display).

【0016】演算装置1は、例えば、音声入力部50、 The processor 1, for example, an audio input unit 50,
処理部(CPU)55、音声認識部60、通訳部85、 Processing unit (CPU) 55, a voice recognition unit 60, an interpreter 85,
レイアウト設定部90及び出力部95を備える。 Comprising a layout setting unit 90, and an output unit 95. 音声入力部50は、話者10の音声を入力する。 Voice input unit 50, to enter the voice of the speaker 10. 音声認識部6 Voice recognition unit 6
0は、例えば、音声入力部50から入力された音声の音声認識を行うものである。 0, for example, performs a voice recognition of the voice input from the voice input unit 50. 通訳部85は、例えば、音声認識部60で音声認識された言語情報を、ユーザ40の獲得している言語体系に通訳するものであって、データベース選択部70と、尤度閾値設定部80を備える。 Interpretation unit 85, for example, the language information speech recognition by the speech recognition unit 60, there is to be interpreted into language system has earned a user 40, a database selection unit 70, a likelihood threshold value setting unit 80 provided. 具体的には、通訳部85は、例えば、話者10がユーザ4 Specifically, an interpreter section 85, for example, the speaker 10 by the user 4
0の獲得している言語体系(例えば、母国語)とは異なる言語体系(例えば、外国語)を用いて、ユーザ40とのコミュニケーションを行う場合、音声認識部60より音声認識された話者10の言語体系による言語情報を、 0 of acquisition to have language system (for example, native language) different language system is (for example, foreign language) using, in the case of performing the communication with the user 40, the speaker is speech recognition from the speech recognition unit 60 10 the language information by the language system,
ユーザ40の獲得している言語体系に変換(通訳)を行うものである。 Is performed transform (interpretation) in language system has earned the user 40.

【0017】データベース選択部70は、例えば、通訳部85内又は音声通訳システム100内に適宜設けられたひとつ又は複数種類の言語データベース(漢字DB) The database selection unit 70, for example, one provided appropriately interpreting portion 85 or within the speech interpretation system 100 or in a plurality of types of languages ​​database (Kanji DB)
に予め記憶された漢字の難易度(例えば、JIS水準レベルに従って、小学2年生レベル、中学生レベルなど) Prestored difficulty of kanji (e.g., according to JIS standards level, elementary second grade level, junior high school level, etc.)
を、ユーザ40の語彙力(どの程度の漢字を含む文字列を作成するべきかを判断することになる)に応じて選択する。 And (it will determine whether to create a string containing the Kanji degree) vocabulary user 40 selects in accordance with the. これにより、話者10の音声を音声認識する際、 As a result, when recognizing voice the voice of the speaker 10,
ユーザ40の語彙力に応じた漢字を含む文字列を作成することができる。 It is possible to create a string containing a Chinese character in accordance with the vocabulary of the user 40. なお、言語データベースにひらがなに該当する漢字を認識しない場合、文字列は、全てひらがな及び/又は非文字(例えば、記号など)として透過型表示装置2の透過性ディスプレイ上に表示される。 In the case where not recognize Kanji corresponding to hiragana language database, string, all Hiragana and / or non-character (e.g., symbol, etc.) displayed on the transmissive display device 2 of the permeability on the display as.

【0018】また、通訳部85は、図示しない音声データベースに記憶された話者10からの連続音声に対して、言語データベースを用いて音声認識が行われた場合、単語系列と各単語の尤度(例えば、単語間のつながりの確からしさであって、単語間の距離と捉えても良い。したがって、尤度が高いことと、単語間の距離が小さくこととは、概ね同義である)を認識結果として得る。 Further, interpretation unit 85, to the continuous speech from a speaker 10 which is stored in the speech database, not shown, when the speech recognition using a language database has been performed, the word sequence and the likelihood of each word (e.g., a probability of connection between words may be regarded as the distance between words. Thus, a the high likelihood, the possible distance between the words is small, generally synonymous) recognize the results obtained as.

【0019】尤度閾値設定部80は、例えば、通訳部8 [0019] The likelihood threshold setting unit 80, for example, interpreting section 8
5での認識結果のうち正しく認識できた文字列のみを呈示するために尤度に対応した閾値を設定する。 Only strings correctly recognized among the recognition results 5 sets a threshold value corresponding to the likelihood to present. 具体的には、各単語の尤度が高い場合、その単語が正しく認識できている可能性が高く、尤度が低い場合、その単語が正しく認識できている可能性が低いと想定される。 Specifically, when the likelihood of each word is high, likely the word is correctly recognized, if the likelihood is low, it is assumed to be less likely the word is correctly recognized. このため、尤度閾値設定部80で閾値を設定することにより、 Therefore, by setting the threshold likelihood threshold setting unit 80,
認識結果の単語系列に対して、各単語の対数尤度がある閾値より大きければ、この単語を呈示し、対数尤度が閾値より小さいならば、この単語を呈示しないようにすることもできる(閾値の具体的な数値については、後述)。 For the word sequence of the recognition result, it is greater than a certain threshold log-likelihood of each word, presents the word, if log-likelihood is less than the threshold value, it is also possible not to exhibit this word ( the specific numerical values ​​of the thresholds, below). なお、通訳部85では、この対数尤度が閾値より小さい単語(単語間のつながりの確からしさが小さく、 In the interpretation section 85, it is less likelihood of links between words this log-likelihood is less than the threshold value (word,
単語間の距離が大きい)を呈示しないだけでなく、記号等の非文字として透過型表示装置2の透過性ディスプレイ上に表示するように適宜設定することができる。 Not only present the large) distance between words, it is possible to appropriately set to display on the transmissive display device 2 of the permeability on the display as a non-character symbols or the like.

【0020】レイアウト設定部90は、透過型表示装置2への表示状態を設定するものであって、例えば、呈示文字数設定部91、色調整用設定部92、大きさ調整用設定部93及び表示位置調整用設定部94を備える。 The layout setting unit 90, the transmission type display be one that sets the display state of the apparatus 2, for example, presenting characters setting unit 91, a color adjustment setting unit 92, the size adjustment setting unit 93 and the display position the regulating setting unit 94. 呈示文字数設定部91は、例えば、演算装置3より出力され、透過型表示装置2に表示される文字列の呈示文字数を適宜調整することができる。 Presenting characters setting unit 91, for example, is output from the arithmetic unit 3, presentation number of characters in the string to be displayed on the transmissive display device 2 can be appropriately adjusted. また、呈示文字数設定部91は、例えば、ユーザ40の読話及び/又は手話の習熟度と呈示文字数との対応を示す習熟度フォルダを含む(図2参照)。 Also, presentation character setting unit 91 includes, for example, proficiency folder showing correspondence between speechreading and / or skill level and presentation number of sign language users 40 (see FIG. 2).

【0021】色調整用設定部92は、同じく、文字列の色を適宜調整することができる。 [0021] Color adjustment setting unit 92, like, can be appropriately adjusting the color of the string. 大きさ調整用設定部9 For size adjustment setting unit 9
3は、同じく、文字列の大きさを適宜調整することができる。 3, like, it can be appropriately adjusting the size of the string. 表示位置調整用設定部94は、同じく、文字列の表示位置、表示の焦点距離(例えば、話者10の距離に応じて、文字列の表示される焦点距離を調整可能)を適宜調整することができる。 Display position adjustment setting unit 94, like the display position of the character string, the focal length of the display (e.g., depending on the distance of the speaker 10, can adjust the focal length to be displayed string) appropriately adjusting the can. なお、レイアウト設定部90 In addition, the layout setting section 90
に含まれる各種設定部の設定は、ユーザ40自身により適宜設定される(図中、実線の矢印)。 Setting various setting unit included in is appropriately set by the user 40 himself (in the figure, solid line arrows). これにより、透過型表示装置2に表示される文字列のレイアウトは、ユーザ40の所望する状態に変更することができる。 Thus, the layout of a character string displayed on the transmissive display device 2 can be changed to the desired state of the user 40. 出力部95は、ユーザ40によるレイアウト設定部91の設定に従って、音声認識部60により音声認識された結果である文字列(バーバル情報)を、透過表示装置2に出力する。 The output unit 95 according to the setting of the layout setting unit 91 by the user 40, a character string (verbal information) which is a result of the speech recognition by the speech recognition unit 60, and outputs the transmissive display device 2.

【0022】図2は、習熟度フォルダ20の説明図である。 [0022] FIG. 2 is an explanatory diagram of proficiency folder 20. 習熟度フォルダ20は、上述のように、レイアウト設定部90内の呈示文字数設定部91に含まれており、 Proficiency folder 20, as described above, it is included in the presentation character setting unit 91 in the layout setting unit 90,
例えば、ユーザ40の読話及び/又は手話の習熟度21 For example, the speech reading and / or sign language of the user 40 proficiency 21
と呈示文字数(の割合)22との対応を示している。 It indicates the correspondence is between the presentation number (percentage) of 22. ここでは、習熟度21と呈示文字数(の割合)22との対応としては、「低い、80%」「普通、60%」「高い、40%」を予め記憶している。 Here, as the correspondence between proficiency 21 and presentation number (ratio) of 22, "low, 80%" "ordinary, 60%" "high, 40%" is stored in advance. なお、この習熟度フォルダ20による習熟度21と呈示文字数(の割合)2 Note that the proficiency 21 according to the learning level folder 20 presents characters (ratio of) 2
2との対応は、適宜設定することができる。 2 and the corresponding can be set appropriately.

【0023】ユーザ40(例えば、聴覚障害者)は、透過型表示装置2の透過性ディスプレイにより、話者10 The user 40 (e.g., hearing impaired), due permeability display of the transmissive display device 2, the speaker 10
の音声を音声認識した結果である文字列(バーバル情報)だけでなく、透過性ディスプレイを介して話者10 The well string (verbal information) which is the result of voice recognition and voice, talking through the transparent display's 10
のノンバーバル情報をも取得することができる。 It is also possible to obtain a non-verbal information. ユーザ40は、例えば、図示しない習熟度設定ボタンなどを用いて、ユーザ40自身の習熟度21を演算装置1に入力する。 The user 40 may, for example, by using a proficiency setting button (not shown), and inputs the user 40's own proficiency 21 to the processing unit 1. なお、ユーザ40自身の習熟度21を演算装置1 The arithmetic device user 40's own proficiency 21 1
に入力する場合、ユーザ40だけでなく保守者、家族、 If you want to enter into, a maintenance person not only the user 40, family,
医者など適宜の人間によって設定するようにしてもよい。 It may be set by an appropriate person, such as a doctor.

【0024】ユーザ40は、読話、手話についての習熟度21が高い場合(この習熟度は、個人差が大きい)、 [0024] The user 40 may, if speechreading and proficiency 21 for sign language high (this proficiency, individual difference is large),
ノンバーバル情報を汲み取ることで、話者10とのコミュケーションを円滑に行うことが想定される。 By scoop out the non-verbal information, it is assumed to smoothly carry out a community application of the speaker 10. この場合、ユーザ40にとって文字列は、補助(又は確認)として機能することになる(ここでは、「高い、40 In this case, the string for the user 40 will function as an auxiliary (or confirm) (here, "high, 40
%」)。 % ").

【0025】一方、ユーザ40は、例えば、読話、手話についての習熟度21が低い場合、ノンバーバル情報だけでは、話者10とのコミュケーションを行うことが困難であることが想定される。 On the other hand, the user 40, for example, speech reading, when the level of proficiency 21 is low sign language, the only non-verbal information, it is assumed that it is difficult to perform the community application of the speaker 10. この場合、ユーザ40は、 In this case, the user 40,
話者10とのコミュケーションを行うためにバーバル情報に依存する(ここでは、「低い、80%」)。 In order to perform community application of the speaker 10 depends on the verbal information (in this case, "low, 80%"). なお、 It should be noted that,
本発明に関する音声通訳システム100は、聴覚障害者の読話、手話についての習熟度12を向上させるための、一種の訓練システムにも適用できる。 Speech interpretation system 100 relating to the present invention, deaf speechreading, for improving the proficiency 12 for sign language, can be applied to one of the training system. 具体的には、 In particular,
聴覚障害者の読話、手話についての習熟度21が向上するにつれて、呈示文字数(の割合)22を小さくしたり、又は、習熟度21を確認するために呈示文字数(の割合)22を大きくしたりしてもよい。 Deaf speechreading, as proficiency 21 for sign language is improved, or a smaller presentation number (percentage) 22, or, or to increase the presentation number (percentage) of 22 to confirm the proficiency 21 it may be.

【0026】図3は、本発明に関する音声通訳システム100の使用状態を示す概略説明図である。 [0026] FIG. 3 is a schematic explanatory view showing a state of use of speech interpretation system 100 relating to the present invention. 音声通訳システム100においてユーザ40は、透過型メガネディスプレイ2を装着する。 User 40 in the voice interpretation system 100 mounts the transmissive glasses display 2. ユーザ40は、透過型メガネディスプレイ2上に表示されるバーバル情報(ここでは、 The user 40 may, verbal information displayed on the transmissive glasses display 2 (here,
音声認識部60により音声認識され、且つ、通訳部85 Is the speech recognition by the speech recognition unit 60, and, interpreting section 85
により通訳された結果データである言語情報「文字列もくしは、・・・・など」)だけでなく、透過型メガネディスプレイ2を介して取得される話者10のノンバーバル情報(ここでは、表情、口の動き、ジェスチャー)を用いて話者10とのコミュニケーションを行う。 By "even comb strings, ... etc." language information is result data interpretation) as well, nonverbal information of the speaker 10 which is obtained through the transmissive glasses display 2 (here, expression , carry out communication with the speaker 10 using mouth movements, gestures). なお、 It should be noted that,
図中、バーバル情報が話者10上に重なるように描かれているが、これは、ユーザ40を主体とすれば、透過型メガネディスプレイ2上に表示される「文字列もくしは、・・・・など」は、話者10の手前に表示されているように見えるからである。 In the figure, the verbal information is illustrated as overlying the speaker 10, which, if the user 40 mainly, also comb "string is displayed on the transmissive glasses display 2, ... ... such as "is because appear to be displayed in front of the speaker 10.

【0027】図4は、本発明に関する音声通訳システム100のフローチャートである。 [0027] FIG. 4 is a flowchart of a speech interpretation system 100 relating to the present invention. まず、呈示文字数設定部91は、例えば、図示しない習熟度設定ボタンを介して入力されたユーザ40の習熟度21に関する情報に基づいて、呈示文字数(の割合)22を設定する(S20 First, presenting characters setting unit 91, for example, based on information about the proficiency 21 users 40 input via the proficiency setting button (not shown), sets the presentation number (ratio of) 22 (S20
1)。 1). なお、ここで、上述の尤度閾値の設定及び/又は漢字DBの選択を、必要に応じて行うことができる。 Here, the selection of the configuration and / or kanji DB of the aforementioned likelihood threshold, can be performed as needed. つぎに、レイアウト設定部90に含まれる色調整用設定部92、大きさ調整用設定部93及び表示位置調整用設定部94の各種設定を行う(S203)。 Next, various setting color adjustment setting unit 92, a size adjustment setting unit 93 and the display position adjusting setting unit 94 included in the layout setting unit 90 (S203). 話者10からの音声が図示しないマイクロホンを介して音声入力部50 Via the microphone sound from the speaker 10 is not shown audio input unit 50
に入力される(S205)。 Is input to the (S205).

【0028】ステップS205による入力音声が、音声認識部60によって、音声認識される(S207)。 The input speech in step S205 is, by the voice recognition unit 60, is speech recognition (S207). さらに、ステップS207の音声認識結果データは、通訳部85によってユーザ10の獲得している適宜の言語体系に変換(通訳)される(S213)。 Furthermore, the speech recognition data in step S207 is converted into an appropriate language system that has acquired the user 10 by the interpretation section 85 (translator) (S213). ここで、ステップS207及びS213により音声認識され、通訳された言語情報であるバーバル情報は、出力部95を介して、透過型表示装置2に出力される(S209)。 Here, the voice recognition in step S207 and S213, verbal information is interpreter language information, via the output unit 95 is output to the transmissive display device 2 (S209). 透過型表示装置2に出力されるバーバル情報についての変更(ここでは、呈示文字数(の割合)22の設定、必要に応じて尤度閾値の設定及び/又は漢字DBの選択、さらに、ステップS203による各種設定)が入力されたかを判定する(S211)。 Changing of verbal information output on the transmissive display device 2 (here, presentation number (percentage) 22 settings, the setting of the likelihood thresholds if necessary and / or selection of Kanji DB, further, due to the step S203 determines various settings) is input (S211). ステップS211よりバーバル情報についての変更が入力された場合、再びステップS201及び/又はステップS203に戻り、呈示文字数(の割合)22の設定、さらに、必要に応じて尤度閾値の設定及び/又は漢字DBの選択、さらに、ステップS203による各種設定を行う。 If step S211 changes about the verbal information from is input, the process returns to step S201 and / or step S203 again, presentation number (percentage) 22 settings, further settings as necessary of the likelihood thresholds and / or kanji selection of DB, further, make various settings in step S203. また、ステップS21 In addition, step S21
1よりバーバル情報についての変更が入力されていない場合、一連の処理を終了する。 If changes of the verbal information than 1 is not input, the series of processing is terminated.

【0029】図5は、被験者による文意の理解を客観的に示す実験結果を示す図である。 FIG. 5 is a diagram showing experimental results of objectively indicate an understanding of the meaning of a sentence by the subject. 但し、ここでは、従来技術(参照:齊藤幹、失聴者のための音声認識技術を利用したマン・マン・インターフェースに関する研究;北海道大学大学院工学研究科修士論文、19992)で示された実験を行ったものであるため、本発明の前提条件「人間は、例えば、音声認識結果の文字列の認識率が60% However, here, the prior art (see: Miki Saito, studies on man-man interface that uses voice recognition technology for the loss listener; Hokkaido University Graduate School of Engineering, Master's Thesis, 19992) conducted an experiment that has been shown in because those were prerequisites "human invention, for example, the recognition rate of the character string of the speech recognition result 60%
程度確保されれば(不完全なバーバル情報)、前後の文脈及び/又は認識結果から文字列を類推し、結果的にコミュニケーションを図ることができる」を示し、さらに、「この前提条件に加えて、本発明者らによるノンバーバル情報の同時呈示という着想によれば、コミュニケーションがさらに円滑に行われる」という根拠を導く程度に簡潔に説明する。 If it is much ensured (incomplete verbal information), by analogy the string from the context and / or recognition results before and after, consequently it is possible to promote communication indicates ", further," in addition to the prerequisite according to the idea simultaneous presentation of nonverbal information by the present inventors, communication briefly described to the extent that further smoothly carried out, "it leads to evidence that.

【0030】図5(a)は、対数尤度閾値と呈示文の変化を示す図である。 [0030] FIG. 5 (a) is a graph showing changes in presentation statements log likelihood threshold. この対数尤度閾値と呈示文の変化3 Changes in the presentation statement this log-likelihood threshold 3
0は、例えば、尤度30、呈示文32を含む。 0 include, for example, the likelihood 30, the presentation statements 32. 音声認識部60により、認識単語及びその尤度が算出される。 The voice recognition unit 60, recognized word and the likelihood is calculated. つぎに、予め設定された閾値より大きい尤度に対応する認識単語のみを呈示する。 Then, to present only the recognized word corresponding to the larger likelihood than a preset threshold. なお、閾値より小さい尤度に対応する単語については、非文字(ここでは、「?」)として表示した。 It is to be noted that the word corresponding to the small likelihood than the threshold value (in this case, "?") Non-character displayed as. これにより、尤度30と呈示文32との対応としては、図示のように、対数尤度閾値を小さくすることで、呈示する単語数が増加している。 Accordingly, the correspondence between the likelihood 30 and the presentation statements 32, as shown, by decreasing the log-likelihood threshold, the number of words presented is increasing.

【0031】図5(b)は、対数尤度閾値による文意理解精度の変化を示す図である。 [0031] FIG. 5 (b) is a graph showing changes in meaning of a sentence understanding accuracy by log-likelihood threshold. ここでの実験結果としては、図示のように、すべての被験者(A〜F)に共通して、対数尤度閾値が「−2500」、すなわち、単語認識精度が約40%を越えると文理解精度は急激に上昇している。 As experimental results here, as shown, common to all subjects (to F), the log-likelihood threshold is "-2500", i.e., sentence understood word accuracy exceeds about 40% accuracy is rapidly rising. なお、失聴者においては個人差が大きく、これは獲得語彙数の差が要因のひとつだと考えられる。 In addition, individual difference is large in the loss listener, this is the difference between the number of acquired vocabulary is considered that it is one of the factors.

【0032】以上により、本発明の前提条件「人間は、 By the [0032] above, prerequisite conditions "human beings of the present invention,
例えば、音声認識結果の文字列の認識率が60%程度確保されれば(不完全なバーバル情報)、前後の文脈及び/又は認識結果から文字列を類推し、結果的にコミュニケーションを図ることができる」を客観的に示唆した。 For example, if it is ensured recognition rate of about 60% of the string of the speech recognition result (incomplete verbal information), by analogy the string from the context and / or recognition results before and after, that consequently promote communication It can "was objectively suggest.

【0033】図6は、本発明に関する音声通訳システム100に関連する実験結果を示す図である。 [0033] FIG. 6 is a diagram showing the experimental results relating to the speech interpretation system 100 relating to the present invention. 本実験は、 This experiment,
演算装置1から得られる不完全なバーバル情報と、話者10から得られるノンバーバル情報とを、透過型表示装置2を着用するユーザ40に対して同時呈示することによる文章理解変化について実施されたものである。 Those with incomplete verbal information obtained from the operation device 1, and nonverbal information obtained from the speaker 10, was performed on text comprehension change due to the co-presented to the user 40 wearing the transmissive display device 2 it is.

【0034】本実験では、聴覚障害者に協力してもらう前に、聴覚に障害を持たない23歳〜30歳の日本人男性、3名を被験者とした。 [0034] In this experiment, before you ask them to cooperate with the deaf, hearing without disabilities 23-year-old to 30-year-old Japanese man, three were the subjects. なお、3人の被験者は、これまで特に読話の訓練を受けたことはない。 In addition, three subjects are not particularly trained in speechreading ever. さらに、呈示する文章は、図5(a)に示した呈示文32と同様とした。 Furthermore, the sentence to be presented were the same as presented sentence 32 shown in Figure 5 (a).

【0035】呈示文32と共に呈示するノンバーバル情報としては、デジタルビデオ(Victor:GR−D [0035] As the non-verbal information to be presented with presentation statement 32, the digital video (Victor: GR-D
V1、57万画素)で撮影した顔の映像を用いた。 Using the image of the photographed face in V1,57 million pixels). この映像は、23歳の日本人男性に音声処理を施す前の正解の文章を読み上げてもらい、その時の顔を中心に撮影した。 This video, asked to read aloud the sentence in front of the correct answers subjected to the voice processing to the Japanese man of 23 years old, were taken to the center of the face at that time. この映像にPCによるディジタル処理を施し、呈示文章字幕を重ね合わせた。 It performs digital processing by PC to the video, superposed presentation text subtitles. 文章字幕は、話者が文章をしゃべり終わり口の動きが止まった後に、話者の口元に重ね合わせて呈示した。 Sentence subtitles, speaker after that stopped the movement of the mouth end speak a sentence, it was presented superimposed on the mouth of the speaker. なお、元の文章が同じであれば、 It should be noted that, if the original text is the same,
4段階の尤度の違い(図6に示すプロット位置に対応) 4 stages difference in likelihood (corresponding to plot the position shown in FIG. 6)
によらず、同じ顔の映像を利用した。 Regardless of the, using the image of the same face.

【0036】実験としては、バーバル情報だけの意味理解の変化を調べる第1実験(バーバル情報)と、バーバル情報だけでなく映像試料、すなわちノンバーバル情報を付加した状態での意味理解の変化を調べる第2実験とを行う。 Examples of the experiment, first examining the first experiment to investigate the change in the semantic understanding only verbal information (verbal information), video samples not only verbal information, namely the change of semantic understanding of a state of adding the non-verbal information 2 carry out the experiment and. 第1実験の内容は、図5と同様であり、説明を省略する。 Contents of the first experiment is similar to FIG. 5, the description thereof is omitted. また、ここでは、元の文章に応じて無作為に被験者をA、Bの2つのグループに分けた。 Further, here, divided the subjects randomized in accordance with the original text A, the two groups of B. グループA、Bの被験者には、それぞれ25文に対し、4段階の尤度に分けた100の文章を呈示した。 The group A, subject B, to 25 sentences each, were presented the 100 sentences of dividing the likelihood of four stages. 各グループの被験者は、例えば、紙に印刷された呈示文章を順番に読んでいき、その意味が理解できれば自分の理解した内容を答えるようにした。 The subjects of each group is, for example, we read the presentation sentence that has been printed on paper in order, and to answer their understanding of the content if you can understand its meaning. その際、普段被験者が使い慣れているパソコンを用いて、テキストエディタにキーボードで打ち込ませた。 At that time, usually by using a personal computer the subject is familiar, it was driven by the keyboard in the text editor. なお、被験者に対しては、指示された順番通りに進み、呈示文章を飛ばしたり、前の呈示文章に戻ることはしないように予め教示している。 It should be noted that, for the subject, the process proceeds in the order that has been instructed, or skip the presentation sentence, has been previously taught so as not to be able to go back to the previous presentation sentence.

【0037】第2実験(バーバル情報+ノンバーバル情報)では、映像を被験者に呈示するために透過型HMD [0037] In the second experiment (verbal information + nonverbal information), transmission to present an image to the subject HMD
(OLYMPUS:Mediamask)を用いた。 (OLYMPUS: Mediamask) was used. 被験者はデジタルビデオを再生し、顔の映像から読話を試み、続いて字幕が現れたところでビデオを一旦停止させ、その文章の内容が理解できれば先ほどと同じようにパソコン上のテキストエディタにキーボードで打ち込ませた。 The subjects to play digital video, try to speechreading from the image of the face, followed by once stopping the video where the subtitles appear, just as driven by the keyboard in a text editor on your computer and just if you can understand the contents of the sentence It was.

【0038】また、実験手順としては、第1実験のAグループを試行し、つぎに、第2実験を行い、最後に、第1実験のBグループを試行した。 [0038] As the experimental procedure, attempts to Group A in the first experiment, then, performing a second experiment, finally, it attempts to B group of the first experiment. なお、それぞれの実験の間には被験者の判断により休憩を挟んだ。 Incidentally, across the break by the subject of the determination between each experiment. この実験手順を採用したのは、元の文章が同じであり実験を繰り返すことによって生じる文章に対する慣れを少しでも減らすためであり、また、被験者の集中力やモチベーションに結果が影響されやすく、その影響をいくらかは少なくするためである。 We chose this experimental procedure, is for reduce the familiarity with the text produced by the original sentence is repeated the same experiment a little, also, likely to be affected the results in the concentration and motivation of the subject, its influence it is somewhat in order to reduce.

【0039】また、図示のグラフは、被験者Aの実験結果を示しており、グラフの横軸は対数尤度閾値(単語認識精度)であり、縦軸は文意理解精度(%)である。 Further, the graph shown illustrates the experimental results of the subject A, the horizontal axis of the graph is the logarithm likelihood threshold (word accuracy) and the vertical axis represents the meaning of a sentence understanding accuracy (%). なお、四角のマーカーが施された実線は、第2実験による文理解精度である。 Incidentally, the solid line square marker has been subjected, a sentence understanding accuracy of the second experiment. また、三角のマーカーが施された実線は、第1実験でのA、Bグループの結果を平均したものである。 Also, a solid line marker triangular is performed is obtained A in the first experiment, the results of the B group were averaged.

【0040】被験者Aでは、対数尤度閾値が−2000 [0040] In the subject A, the log-likelihood threshold -2000
から−3000(認識率で約40%)になると急激に文理解精度が向上している。 Is rapidly improved sentence understanding accuracy becomes to -3000 (approximately 40% recognition rate) from. また、被験者Aで対数尤度閾値が下がれば文理解精度は概ね上昇している。 Furthermore, sentence understanding accuracy if residual values ​​decrease log-likelihood threshold subject A is generally increased. すなわち、被験者Aでは、ノンバーバル情報を付加することによる、文理解精度の向上が明らかに示されている。 That is, in the subject A, by adding the non-verbal information, improvement in the sentence understanding accuracy is clearly shown.

【0041】このように本実施の形態の音声通訳システム100によれば、話者による言語情報と非言語情報とを、同時にユーザに呈示することで、話者とユーザとの異なる言語体系におけるコミュニケーションの補助を行うことができる。 [0041] According to the speech interpretation system 100 of the present embodiment, the language information and the non-language information by the speaker, by presenting to the user at the same time, communication in different language system between the speaker and the user it is possible to perform the auxiliary. また、ユーザの特性と音声認識装置の性能に応じて、読話、手話による非言語情報と、音声認識及び通訳結果である言語情報とを、同時にユーザに呈示することができる。 Further, according to the performance of user characteristics and speech recognition device, speech reading, and nonverbal sign language, a language information is a voice recognition and interpretation results can be presented to the user at the same time. また、音声通訳システム100によれば、特に、読話や手話による文理解能力が低い中途失聴者であっても、円滑なコミュニケーションを図ることができる。 Further, according to the speech interpretation system 100, in particular, even at a low post-lingual deafness statements understood capability of speechreading and sign language, it is possible to achieve smooth communication.

【0042】本発明の音声通訳システムは、各部を実現するための機能を含む音声表示方法、その各手順をコンピュータに実行させるための音声通訳プログラム、音声通訳プログラムを記録したコンピュータ読み取り可能な記録媒体、音声通訳プログラムを含みコンピュータの内部メモリにロード可能なプログラム製品、そのプログラムを含むサーバ等のコンピュータ、音声通訳装置、等により提供されることができる。 The speech interpretation system of the present invention, the audio display method comprising a function for realizing each unit, voice interpreter for executing the respective steps in a computer, a computer-readable recording medium recording a speech interpreter can be provided internal memory loadable program product of a computer includes a voice interpreter, a computer such as a server, including the program, the voice interpreting device, the like.

【0043】 [0043]

【発明の効果】本発明によると、以上説明した通り、話者による言語情報と非言語情報とを、同時にユーザに呈示することで、話者とユーザとの異なる言語体系におけるコミュニケーションの補助を行うができる。 According to the present invention, above-described above, the language information and the non-language information by the speaker, by presenting to the user at the same time, it performs the assistance of communication in different language system between the speaker and the user can. また、本発明は、ユーザの特性と音声認識装置の性能に応じて、 Further, the present invention, depending on the capability of the user characteristics and speech recognition device,
読話、手話による非言語情報と、音声認識及び通訳結果である言語情報とを、同時にユーザに呈示することができる。 Speechreading a nonverbal sign language, a language information is a voice recognition and interpretation results can be presented to the user at the same time. また、本発明は、例えば、読話や手話による文理解能力が低い中途失聴者であっても、円滑なコミュニケーションを図ることができる。 Further, the present invention may be, for example, a low post-lingual deafness statements understood capability of speechreading and sign language, it is possible to achieve smooth communication.

【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS

【図1】本発明に関する音声通訳システム100の概略構成図。 Schematic block diagram of a speech interpretation system 100 relating to the present invention; FIG.

【図2】習熟度フォルダ20の説明図。 Illustration of FIG. 2 proficiency folder 20.

【図3】本発明に関する音声通訳システム100の使用状態を示す概略説明図。 Schematic diagram illustrating the use state of the speech interpretation system 100 relating to the present invention; FIG.

【図4】本発明に関する音声通訳システム100のフローチャート。 Flowchart of speech interpretation system 100 relating to the present invention; FIG.

【図5】被験者による文意の理解を客観的に示す実験結果を示す図。 FIG. 5 is a graph showing the results of an experiment objectively show an understanding of the meaning of a sentence by the subject.

【図6】本発明に関する音声通訳システム100に関連する実験結果を示す図。 6 shows experimental results relating to the speech interpretation system 100 relating to the present invention.

【符号の説明】 DESCRIPTION OF SYMBOLS

1 演算装置 2 透過型表示装置 10 話者 40 ユーザ 50 音声入力部 55 処理部(CPU) 60 音声認識部 85 通訳部 90 レイアウト設定部 95 出力部 100 音声表示システム 1 arithmetic unit 2 the transmission type display device 10 speakers 40 user 50 the voice input unit 55 processing unit (CPU) 60 speech recognition unit 85 interpreting section 90 layout setting unit 95 output unit 100 audio presentation system

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl. 7識別記号 FI テーマコート゛(参考) G10L 15/00 G10L 3/00 551C 15/22 561C (72)発明者 伊福部 達 北海道札幌市中央区南13条西13丁目1−43 Fターム(参考) 5B091 AA03 AA15 BA03 BA12 BA19 CB12 CB22 EA09 5D015 HH23 KK03 LL05 5E501 AA30 BA14 CA06 CB15 CC11 FA14 FA32 ────────────────────────────────────────────────── ─── of the front page continued (51) Int.Cl. 7 identification mark FI theme Court Bu (reference) G10L 15/00 G10L 3/00 551C 15/22 561C (72) inventor Ifukube Hokkaido Chuo-ku, Sapporo Minami 13 Article Nishi 13-chome, 1-43 F-term (reference) 5B091 AA03 AA15 BA03 BA12 BA19 CB12 CB22 EA09 5D015 HH23 KK03 LL05 5E501 AA30 BA14 CA06 CB15 CC11 FA14 FA32

Claims (9)

    【特許請求の範囲】 [The claims]
  1. 【請求項1】異なる言語体系間のコミュニケーションを補助するための音声表示システムであって、 入力された音声を認識して言語情報に変換して出力する演算装置と、 前記言語情報を表示すると共に、話者からの非言語情報を得るための透過部を含む透過型表示装置とを備え、 前記演算装置は、 該音声を入力する音声入力部と、 該音声入力部から入力された音声を認識するための音声認識部と、 前記音声認識部で音声認識された言語情報を、異なる言語体系に通訳する通訳部と、 前記透過型表示装置への表示状態を設定するためのレイアウト設定部と、 前記レイアウト設定部の設定に従って、前記音声認識部により音声認識され、且つ、前記通訳部で通訳された結果を、前記透過表示装置に出力する出力部とを有する音声通訳システ 1. A sound display system for assisting the communication between different language system, an arithmetic unit that converts the language information to recognize the input speech, and displays the language information , and a transmissive display device including a transmissive portion for obtaining the non-verbal information from the speaker, the arithmetic device recognition and speech input unit for inputting a voice, a voice input from the voice input unit a speech recognition unit for the language information speech recognition by the speech recognition unit, and interpretation unit for interpreting the different language system, and the layout setting unit for setting the display state to the transmissive display device, according to the setting of the layout setting unit, wherein the speech recognized by the speech recognition unit, and the voice interpretation system and an output unit for the result of the interpretation by the interpreting unit, and outputs to the transmission display device .
  2. 【請求項2】前記レイアウト設定部は、前記透過型表示装置に表示される文字列の呈示文字数、色、大きさ、表示位置、表示の焦点距離のいずれか又は複数を設定するようにした請求項1に記載の音声通訳システム。 Wherein said layout setting unit, presentation number of characters in the string to be displayed on the transmission type display device, the color, size, display position, and so as to set one or more of the focal length of the display according speech interpretation system according to claim 1.
  3. 【請求項3】前記非言語情報は、該話者の唇、目等の顔の部分の動き、ジェスチャー、手話、読話、表情のいずれか又は複数を含むことを特徴とする請求項1又は2に記載の音声通訳システム。 Wherein the non-verbal information, 該話's lips, the movement of the portion of the face of the eye such as gestures, sign language, speech reading, according to claim 1 or 2, characterized in that it comprises one or more expression voice interpretation system according to.
  4. 【請求項4】前記レイアウト設定部では、該読話又は手話の習熟度が高い場合、前記呈示文字数又はその割合を小さく又は大きくし、 該習熟度が低い場合、前記呈示文字数又はその割合を大きく又は小さくそれぞれ設定されるようにした請求項2 The method according to claim 4, wherein the layout setting unit, when there is a high proficiency of said read story or sign language, the presentation of characters or smaller, or increase its proportion, if 該習 ripeness is low, increase the presentation number or percentage thereof or small and to be respectively set according to claim 2
    又は3に記載の音声通訳システム。 Or speech interpretation system according to 3.
  5. 【請求項5】前記演算装置は、携帯型のコンピュータであって、 前記透過型表示装置は、メガネディスプレイであることを特徴とする請求項1乃至4のいずれかに記載の音声通訳システム。 Wherein said computing device is a portable computer, the transmissive display device, a voice interpretation system according to any one of claims 1 to 4, characterized in that a spectacle display.
  6. 【請求項6】前記通訳部は、設定された漢字の難易度に応じて選択された言語データベースに基づき、前記表示される文字列を漢字に変換するようにした請求項1乃至5のいずれかに記載の音声通訳システム。 Wherein said interpretation unit, based on the linguistic database which is selected depending on the difficulty of the set kanji any one of claims 1 to 5 so as to convert the string to be the display kanji voice interpretation system according to.
  7. 【請求項7】前記通訳部は、音声認識された文字列の尤度の閾値を設定する尤度閾値設定部を含み、該尤度閾値設定部で予め設定された閾値に応じて、尤度が該閾値より低いときは、前記表示される文字列を非文字で表示するようにした請求項1乃至6のいずれかに記載の音声通訳システム。 Wherein said interpretation unit includes a likelihood threshold setting unit that sets the threshold of the likelihood of the speech recognition character string, according to a preset threshold 該尤 degree threshold setting unit, the likelihood There is lower than the threshold value, the speech interpretation system according to any one of claims 1 to 6 so as to display the character string to be the display in a non-character.
  8. 【請求項8】入力された音声を認識して言語情報に変換して出力する演算装置と、前記言語情報を表示すると共に話者からの非言語情報を得るための透過部を含む透過型表示装置とを備えた異なる言語体系間のコミュニケーションを補助するための音声表示システムに用いられる音声表示プログラムであって、 該音声を入力する音声入力手順と、 音声認識された文字列の尤度についての予め設定された閾値に応じて、該尤度が該閾値より低いときは、表示される文字列を非文字で表示するように認識するようにした、該音声入力手順から入力された音声を認識するための音声認識手順と、 前記音声認識手順により音声認識された言語情報を、異なる言語体系に通訳する通訳手順と、 前記音声認識手順により音声認識され、且つ、前記通訳手 An arithmetic unit that converts the language information 8. recognizes the input voice, transmissive display comprising a transmissive portion for obtaining the non-verbal information from the speaker and displays the language information an audio display program used for audio presentation system for assisting the communication between different language system that includes a device, an audio input procedures for inputting the voice, for the likelihood of the speech recognition string according to a preset threshold, when 該尤 degree is lower than the threshold value, and to recognize to display a character string displayed in a non-character, recognizing the voice input from the voice input procedure a voice recognition procedure for, the language information speech recognition by the speech recognition procedure, and interpretation procedures for interpreting the different language system, is speech recognition by the speech recognition procedure and the interpretation hand 順により通訳された結果を、前記透過表示装置に出力する出力手順とをコンピュータに実行させるための音声通訳プログラム。 The result of the interpretation by the forward voice interpreter for executing an output procedure for output to the transmissive display device to the computer.
  9. 【請求項9】前記通訳手順は、設定された漢字の難易度に応じて選択された言語データベースに基づき、前記表示される文字列を漢字に変換するようにした請求項8に記載の音声通訳プログラム。 Wherein said interpretation procedure, speech interpreter according to claim 8 which is adapted on the basis of the language database that is selected depending on the difficulty level of the set kanji converting a character string to be the display kanji program.
JP2001044794A 2001-02-21 2001-02-21 Voice interpretation system and voice interpretation program Pending JP2002244842A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001044794A JP2002244842A (en) 2001-02-21 2001-02-21 Voice interpretation system and voice interpretation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001044794A JP2002244842A (en) 2001-02-21 2001-02-21 Voice interpretation system and voice interpretation program

Publications (1)

Publication Number Publication Date
JP2002244842A true true JP2002244842A (en) 2002-08-30

Family

ID=18906723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001044794A Pending JP2002244842A (en) 2001-02-21 2001-02-21 Voice interpretation system and voice interpretation program

Country Status (1)

Country Link
JP (1) JP2002244842A (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7376415B2 (en) 2002-07-12 2008-05-20 Language Line Services, Inc. System and method for offering portable language interpretation services
US7593523B2 (en) 2006-04-24 2009-09-22 Language Line Services, Inc. System and method for providing incoming call distribution
US7773738B2 (en) 2006-09-22 2010-08-10 Language Line Services, Inc. Systems and methods for providing relayed language interpretation
US7792276B2 (en) 2005-09-13 2010-09-07 Language Line Services, Inc. Language interpretation call transferring in a telecommunications network
US7894596B2 (en) 2005-09-13 2011-02-22 Language Line Services, Inc. Systems and methods for providing language interpretation
US8023626B2 (en) 2005-09-13 2011-09-20 Language Line Services, Inc. System and method for providing language interpretation
JP2014120963A (en) * 2012-12-18 2014-06-30 Seiko Epson Corp Display device, head-mounted display device, display device control method, and head-mounted display device control method
JP2014174307A (en) * 2013-03-08 2014-09-22 Kikuichi Nishi Spoken language display processor
WO2016103415A1 (en) * 2014-12-25 2016-06-30 日立マクセル株式会社 Head-mounted display system and operating method for head-mounted display device

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7376415B2 (en) 2002-07-12 2008-05-20 Language Line Services, Inc. System and method for offering portable language interpretation services
US7792276B2 (en) 2005-09-13 2010-09-07 Language Line Services, Inc. Language interpretation call transferring in a telecommunications network
US7894596B2 (en) 2005-09-13 2011-02-22 Language Line Services, Inc. Systems and methods for providing language interpretation
US8023626B2 (en) 2005-09-13 2011-09-20 Language Line Services, Inc. System and method for providing language interpretation
US7593523B2 (en) 2006-04-24 2009-09-22 Language Line Services, Inc. System and method for providing incoming call distribution
US7773738B2 (en) 2006-09-22 2010-08-10 Language Line Services, Inc. Systems and methods for providing relayed language interpretation
JP2014120963A (en) * 2012-12-18 2014-06-30 Seiko Epson Corp Display device, head-mounted display device, display device control method, and head-mounted display device control method
JP2014174307A (en) * 2013-03-08 2014-09-22 Kikuichi Nishi Spoken language display processor
WO2016103415A1 (en) * 2014-12-25 2016-06-30 日立マクセル株式会社 Head-mounted display system and operating method for head-mounted display device

Similar Documents

Publication Publication Date Title
John et al. The effect of time distortions on the intelligibility of deaf children's speech
Campbell et al. Face recognition and lipreading: A neurological dissociation
Dechant Understanding and teaching reading: An interactive model
Wilbur The use of ASL to support the development of English and literacy
Tan et al. Role of early presemantic phonological code in Chinese character identification.
US5340316A (en) Synthesis-based speech training system
Sommers et al. Auditory-visual speech perception and auditory-visual enhancement in normal-hearing younger and older adults
Peng et al. Perception and production of Mandarin tones in prelingually deaf children with cochlear implants
US20050069852A1 (en) Translating emotion to braille, emoticons and other special symbols
US5920838A (en) Reading and pronunciation tutor
Cienkowski et al. Auditory-visual speech perception and aging
US6847931B2 (en) Expressive parsing in computerized conversion of text to speech
Liberman et al. Speech, the alphabet, and teaching to read.
US20040218451A1 (en) Accessible user interface and navigation system and method
Mattingly et al. Reading, the linguistic process, and linguistic awareness
Kellerman ‘I see what you mean’: The role of kinesic behaviour in listening and implications for foreign and second language learning
US5690493A (en) Thought form method of reading for the reading impaired
US20040143430A1 (en) Universal processing system and methods for production of outputs accessible by people with disabilities
Lyons Language and linguistics
Edwards Extraordinary Human-Computer Interaction: Interfaces for Users with Disabilities
Strain et al. Theories of word naming interact with spelling--sound consistency.
Cowie et al. Postlingually acquired deafness: speech deterioration and the wider consequences
Xu In defense of lab speech
US20050142522A1 (en) System for treating disabilities such as dyslexia by enhancing holistic speech perception
Alegria et al. The role of lip-reading and cued speech in the processing of phonological information in French-educated deaf children

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050517

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050708

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060718