JP7316971B2 - CONFERENCE SUPPORT SYSTEM, CONFERENCE SUPPORT METHOD, AND PROGRAM - Google Patents

CONFERENCE SUPPORT SYSTEM, CONFERENCE SUPPORT METHOD, AND PROGRAM Download PDF

Info

Publication number
JP7316971B2
JP7316971B2 JP2020060958A JP2020060958A JP7316971B2 JP 7316971 B2 JP7316971 B2 JP 7316971B2 JP 2020060958 A JP2020060958 A JP 2020060958A JP 2020060958 A JP2020060958 A JP 2020060958A JP 7316971 B2 JP7316971 B2 JP 7316971B2
Authority
JP
Japan
Prior art keywords
participant
unit
conference support
information
sound quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020060958A
Other languages
Japanese (ja)
Other versions
JP2021162895A (en
Inventor
直亮 住田
雅樹 中塚
一博 中臺
雄一 吉田
崇資 山内
一也 眞浦
恭佑 日根野
昇三 横尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Honda Sun Co Ltd
Original Assignee
Honda Motor Co Ltd
Honda Sun Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd, Honda Sun Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2020060958A priority Critical patent/JP7316971B2/en
Publication of JP2021162895A publication Critical patent/JP2021162895A/en
Application granted granted Critical
Publication of JP7316971B2 publication Critical patent/JP7316971B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Description

本発明は、会議支援システム、会議支援方法、およびプログラムに関する。 The present invention relates to a conference support system, a conference support method, and a program.

従来より、会議などにおいて聴覚障害者(聴覚者)の理解を支援するために、発話音声を音声認識装置でテキストに変換して画面に表示する会議支援システムが提案されている(例えば、特許文献1参照)。
このような音声認識を用いたシステムでは、音声入力ごとにまとまった認識テキストがモニタや端末上に表示される。このテキストを読むことにより聴覚者は会議参加者の発言を理解することができる。なお、表示されるテキストは、新たなものが追加されていくことにより、画面上を流れていき、古いテキストは画面表示範囲の外に移動し見えなくなる。
Conventionally, in order to support the understanding of hearing-impaired people (hearing people) in meetings, etc., there have been proposals for meeting support systems that convert spoken speech into text using a speech recognition device and display the text on a screen (see, for example, Patent Document 2). 1).
In a system using such speech recognition, a recognized text is displayed on a monitor or a terminal for each speech input. By reading this text, the hearing person can understand what the conference participants are saying. As new texts are added, the displayed texts flow on the screen, and old texts move out of the screen display range and disappear.

特開2018-170743号公報JP 2018-170743 A

音声認識処理を用いたシステムでは、発話者の声量、発話スピードが音声認識精度に影響する。例えば、声量が小さかったり、早口だったりすると、音声認識精度が低下してしまう。音声認識精度が低下した場合は、適切なテキストを提示できない場合もあり、聴覚障害者や発話障害者がテキスト情報によって発話内容を理解できない場合があった。
このため、発話者に適切な発話をしてもらうよう、例えばインジケータで表示するなどの対策が行われている。しかしながら、従来のシステムでは、テキスト化された自分の発話内容を見ながらインジケータを確認するのは煩わしく、発話に集中できないという課題があった。
In a system using speech recognition processing, the speaker's voice volume and utterance speed affect the speech recognition accuracy. For example, if the volume of the voice is low or if the person speaks quickly, the accuracy of speech recognition will decrease. When the speech recognition accuracy is lowered, there are cases in which appropriate text cannot be presented, and there are cases in which hearing-impaired people and speech-impaired people cannot understand what is being said by text information.
For this reason, countermeasures such as displaying with an indicator have been taken to encourage the speaker to speak appropriately. However, in the conventional system, it is troublesome to check the indicator while looking at the contents of one's own utterance converted into text, and there is a problem that the user cannot concentrate on the utterance.

本発明は、上記の問題点に鑑みてなされたものであって、会議などにおいて聴覚障害者や発話障害者の理解を支援することができ音声認識精度を向上させることができる会議支援システム、会議支援方法、およびプログラムを提供することを目的とする。 The present invention has been made in view of the above problems. The purpose is to provide support methods and programs.

(1)上記目的を達成するため、本発明の一態様に係る会議支援システムは、第1の参加者が使用する会議支援装置と、第2の参加者が使用する端末と、を有する会議支援システムであって、前記会議支援装置は、前記第1の参加者の発話情報を取得する取得部と、少なくとも前記第1の参加者の発話情報を表示する表示部と、前記第1の参加者の発話情報の音質を確認する音質確認部と、確認された前記第1の参加者の発話情報の音質が所定値より悪い場合、前記表示部に表示させる確認された前記第1の参加者の発話情報を認識しにくくさせ、認識しにくくさせた後、所定時間が経過した後、認識しにくくさせる処理を終了する処理部と、を備える。 (1) To achieve the above object, a conference support system according to one aspect of the present invention provides a conference support system including a conference support device used by a first participant and a terminal used by a second participant. A system, wherein the conference support device includes an acquisition unit that acquires speech information of the first participant, a display unit that displays at least the speech information of the first participant, and the first participant and a sound quality confirmation unit for confirming the sound quality of the utterance information of the confirmed first participant, and if the sound quality of the confirmed utterance information of the first participant is worse than a predetermined value, the display unit displays the sound quality of the confirmed first participant. a processing unit that makes the utterance information difficult to recognize, and terminates the process of making the speech information difficult to recognize after a predetermined time elapses after making the speech information difficult to recognize.

(2)また、本発明の一態様に係る会議支援システムにおいて、前記取得部は、前記第1の参加者の発話を収音する収音部であり、前記音質確認部は、収音された前記第1の参加者の発話情報に対して発話音量または発話速度が所定の範囲外の場合に、確認された前記第1の参加者の発話情報の音質が所定値より悪いと判定するようにしてもよい。 (2) In the conference support system according to one aspect of the present invention, the acquisition unit is a sound collection unit that collects the speech of the first participant, and the sound quality confirmation unit is configured to When the speech volume or speech rate for the speech information of the first participant is outside a predetermined range, it is determined that the sound quality of the confirmed speech information of the first participant is worse than a predetermined value. may

(3)また、本発明の一態様に係る会議支援システムにおいて、前記処理部は、前記第1の参加者の発話情報を前記端末へ送信し、確認された前記第1の参加者の発話情報の音質が所定値より悪い場合、前記端末に表示させる確認された前記第1の参加者の発話情報を認識しにくくさせずに、確認された前記第1の参加者の発話情報を、前記第1の参加者の発話情報の音質が所定値より良い場合の表示とは異なるように表示させるようにしてもよい。 (3) Further, in the conference support system according to the aspect of the present invention, the processing unit transmits the utterance information of the first participant to the terminal, and confirms the utterance information of the first participant. is worse than a predetermined value, the confirmed speech information of the first participant is displayed on the terminal without making it difficult to recognize the speech information of the confirmed first participant. The display may be different from the display when the sound quality of the utterance information of one participant is better than a predetermined value.

(4)上記目的を達成するため、本発明の一態様に係る会議支援方法は、第1の参加者が使用する会議支援装置と、第2の参加者が使用する端末と、を有する会議支援システムにおける会議支援方法であって、前記会議支援装置の取得部が、前記第1の参加者の発話情報を取得し、表示部が、少なくとも前記第1の参加者の発話情報を表示し、音質確認部が、前記第1の参加者の発話情報の音質を確認し、処理部が、確認された前記第1の参加者の発話情報の音質が所定値より悪い場合、前記表示部に表示させる確認された前記第1の参加者の発話情報を認識しにくくさせ、認識しにくくさせた後、所定時間が経過した後、認識しにくくさせる処理を終了する。 (4) In order to achieve the above object, a conference support method according to an aspect of the present invention provides a conference support device including a conference support device used by a first participant and a terminal used by a second participant. A conference support method in a system, wherein an acquisition unit of the conference support device acquires utterance information of the first participant, a display unit displays at least the utterance information of the first participant, and sound quality A confirmation unit confirms the sound quality of the utterance information of the first participant, and a processing unit causes the display unit to display when the sound quality of the confirmed utterance information of the first participant is worse than a predetermined value. The confirmed utterance information of the first participant is made difficult to recognize, and after a predetermined period of time has elapsed after making the information difficult to recognize, the process of making the recognition difficult is terminated.

(5)上記目的を達成するため、本発明の一態様に係るプログラムは、表示部を有する第1の参加者が使用する会議支援装置と、第2の参加者が使用する端末と、を有する会議支援システムにおける会議支援装置のコンピュータに、前記第1の参加者の発話情報を取得し、少なくとも前記第1の参加者の発話情報を表示し、前記第1の参加者の発話情報の音質を確認し、確認された前記第1の参加者の発話情報の音質が所定値より悪い場合、前記表示部に表示させる確認された前記第1の参加者の発話情報を認識しにくくさせ、認識しにくくさせた後、所定時間が経過した後、認識しにくくさせる処理を終了させる。 (5) To achieve the above object, a program according to an aspect of the present invention includes a conference support device having a display unit used by a first participant, and a terminal used by a second participant. obtaining speech information of the first participant, displaying at least the speech information of the first participant, and adjusting the sound quality of the speech information of the first participant in a computer of a conference support device in a conference support system; If the sound quality of the confirmed utterance information of the first participant is lower than a predetermined value, the utterance information of the confirmed first participant to be displayed on the display unit is made difficult to recognize and is not recognized. After a predetermined period of time has elapsed after making it difficult to recognize, the process of making the recognition difficult is terminated.

(1)~(5)によれば、会議などにおいて聴覚障害者や発話障害者の理解を支援することができ音声認識精度を向上させることができる。(1)~(5)によれば、発話者は自分が話した内容のテキストを見るだけで、発話状態が適切でないことを気づくことができる。(1)~(5)によれば、一定時間後、テキストが通常の表示になり読めるようになるので、参加者が内容を把握できる。
(2)によれば、発話された音量または発話速度が所定の範囲外であり、音声認識の精度が低下する可能性があることと、音声認識の精度が低下した場合に聴覚障害者や発話障害者が理解しにくくなることを、話者に知ることができる。
(3)によれば、聴覚障害者や発話障害者が、音声認識の精度が低い可能性のある発話であることを認識することができる。
According to (1) to (5), it is possible to assist hearing-impaired persons and speech-impaired persons in understanding at conferences, etc., and to improve speech recognition accuracy. According to (1) to (5), the utterer can notice that the utterance state is not appropriate just by looking at the text of the uttered contents. According to (1) to (5), after a certain period of time, the text is displayed normally and becomes readable, so that the participants can grasp the content.
According to (2), the speech volume or speech rate is outside the predetermined range, and there is a possibility that the accuracy of speech recognition will decrease. The speaker can know that it will be difficult for people with disabilities to understand.
According to (3), a hearing-impaired person or a speech-impaired person can recognize an utterance for which the accuracy of voice recognition may be low.

実施形態に係る会議支援システムの構成例を示すブロック図である。1 is a block diagram showing a configuration example of a conference support system according to an embodiment; FIG. 実施形態に係る会議例を示す図である。It is a figure which shows the example of a meeting which concerns on embodiment. 実施形態に係る端末の表示部に表示される情報例を示す図である。FIG. 4 is a diagram showing an example of information displayed on the display unit of the terminal according to the embodiment; 実施形態に係る会議支援装置の表示部に表示される情報例を示す図である。FIG. 4 is a diagram showing an example of information displayed on the display unit of the conference support device according to the embodiment; 実施形態に係る会議支援装置の表示部上の表示が、音質NGの判定によって変化する例を示す図である。FIG. 10 is a diagram showing an example in which the display on the display unit of the conference support device according to the embodiment changes depending on whether the sound quality is NG. 実施形態に係る会議支援システムの処理手順例を示すシーケンス図である。FIG. 10 is a sequence diagram showing an example of processing procedures of the conference support system according to the embodiment; 実施形態に係る音質確認時の会議支援システムの処理のフローチャートである。9 is a flowchart of processing of the conference support system when confirming sound quality according to the embodiment; 実施形態に係る議事録・音声ログ記憶部が記憶する議事録の一例である。It is an example of the minutes which the minutes/audio log storage part which concerns on embodiment memorize|stores.

以下、本発明の実施の形態について図面を参照しながら説明する。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described with reference to the drawings.

まず、本実施形態の会議支援システムが使用される状況例を説明する。
本実施形態の会議支援システムは、2人以上が参加して行われる会議で用いられる。参加者のうち、発話が不自由な発話障害者または聴覚しょうがい者(以下、聴覚者という)が会議に参加していてもよい。発話可能な参加者は、マイクロフォンを用いて発話する。また、発話障害者または聴覚者は、端末(スマートフォン、タブレット端末、パーソナルコンピュータ等)を所持している。会議支援システムは、参加者の発話した音声信号に対して音声認識、テキスト化して、または発話障害者または聴覚者が端末を操作してテキスト入力したテキストを、会議支援装置の表示部と、発話障害者または聴覚者の端末にテキストを表示させる。
First, an example of a situation in which the conference support system of this embodiment is used will be described.
The conference support system of this embodiment is used in a conference in which two or more persons participate. Among the participants, a speech-impaired person or a hearing-impaired person (hereinafter referred to as a hearing person) who has difficulty speaking may participate in the conference. A participant who can speak speaks using a microphone. In addition, speech-impaired persons or hearing persons have terminals (smartphones, tablet terminals, personal computers, etc.). The conference support system recognizes and converts voice signals uttered by participants into text, or converts text input by a speech-impaired person or a hearing person into a terminal to be displayed on the display unit of the conference support device and uttered. Display text on a handicapped or hearing terminal.

図1は、本実施形態に係る会議支援システム1の構成例を示すブロック図である。
まず、会議支援システム1の構成について説明する。
図1に示すように、会議支援システム1は、入力装置10、端末20-1、端末20-2、…、会議支援装置30、音響モデル・辞書DB40、および議事録・音声ログ記憶部50を備える。端末20-1、端末20-2のうち1つを特定しない場合は、端末20という。
FIG. 1 is a block diagram showing a configuration example of a conference support system 1 according to this embodiment.
First, the configuration of the conference support system 1 will be described.
As shown in FIG. 1, the conference support system 1 includes an input device 10, a terminal 20-1, a terminal 20-2, . Prepare. When one of the terminals 20-1 and 20-2 is not specified, the terminal 20 is used.

入力装置10は、入力部11-1、入力部11-2、入力部11-3、…を備える。入力部11-1、入力部11-2、入力部11-3、…のうち1つを特定しない場合は、入力部11という。
端末20は、操作部201、処理部202、表示部203、および通信部204を備える。
会議支援装置30は、取得部301、音声認識部302、音質確認部303、テキスト変換部304(音声認識部)、係り受け解析部305、議事録作成部306、通信部307、操作部309、処理部310、および表示部311を備える。
The input device 10 includes an input section 11-1, an input section 11-2, an input section 11-3, . When one of the input units 11-1, 11-2, 11-3, . . . is not specified, the input unit 11 is used.
The terminal 20 includes an operation unit 201 , a processing unit 202 , a display unit 203 and a communication unit 204 .
The conference support device 30 includes an acquisition unit 301, a speech recognition unit 302, a sound quality confirmation unit 303, a text conversion unit 304 (speech recognition unit), a dependency analysis unit 305, a minutes creation unit 306, a communication unit 307, an operation unit 309, A processing unit 310 and a display unit 311 are provided.

入力装置10と会議支援装置30とは、有線または無線によって接続されている。端末20と会議支援装置30とは、有線または無線によって接続されている。 The input device 10 and the conference support device 30 are connected by wire or wirelessly. The terminal 20 and the conference support device 30 are connected by wire or wirelessly.

まず、入力装置10について説明する。
入力装置10は、利用者が発話した音声信号を会議支援装置30に出力する。なお、入力装置10は、マイクロフォンアレイであってもよい。この場合、入力装置10は、それぞれ異なる位置に配置されたP個のマイクロフォンを有する。そして、入力装置10は、収音した音からPチャネル(Pは、2以上の整数)の音響信号を生成し、生成したPチャネルの音響信号を会議支援装置30に出力する。
First, the input device 10 will be described.
The input device 10 outputs a voice signal uttered by the user to the conference support device 30 . Note that the input device 10 may be a microphone array. In this case, the input device 10 has P microphones arranged at different positions. Then, the input device 10 generates a P-channel (P is an integer equal to or greater than 2) acoustic signal from the collected sound, and outputs the generated P-channel acoustic signal to the conference support device 30 .

入力部11は、マイクロフォンである。入力部11は、利用者の音声信号を収音し、収音した音声信号をアナログ信号からデジタル信号に変換して、デジタル信号に変換した音声信号を会議支援装置30に出力する。なお、入力部11は、アナログ信号の音声信号を会議支援装置30に出力するようにしてもよい。なお、入力部11は、音声信号を、有線のコードやケーブルを介して、会議支援装置30に出力するようにしてもよく、無線で会議支援装置30に送信するようにしてもよい。なお、入力部11は、オン状態とオフ状態を切り替えるスイッチを備えていてもよい。この場合、発話者は、発話開始時に入力部11をオン状態にし、発話終了時にオフ状態に切り替えるようにしてもよい。そして、この場合は、会議支援装置30へ出力される音声信号に発話開始を示す情報と発話終了を示す情報が含まれていてもよい。 The input unit 11 is a microphone. The input unit 11 picks up a user's voice signal, converts the picked-up voice signal from an analog signal to a digital signal, and outputs the converted voice signal to the conference support device 30 . Note that the input unit 11 may output analog audio signals to the conference support device 30 . The input unit 11 may output the audio signal to the conference support device 30 via a wired cord or cable, or may transmit the audio signal to the conference support device 30 wirelessly. Note that the input unit 11 may include a switch that switches between an ON state and an OFF state. In this case, the speaker may turn on the input unit 11 when starting to speak, and turn it off when finishing speaking. In this case, the audio signal output to the conference support device 30 may include information indicating the start of speech and information indicating the end of speech.

次に、端末20について説明する。
端末20は、例えばスマートフォン、タブレット端末、パーソナルコンピュータ等である。端末20は、音声出力部、モーションセンサー、GPS(Global Positioning System;全地球測位システム)等を備えていてもよい。
Next, the terminal 20 will be explained.
The terminal 20 is, for example, a smart phone, a tablet terminal, a personal computer, or the like. The terminal 20 may include an audio output unit, motion sensor, GPS (Global Positioning System), and the like.

操作部201は、利用者の操作を検出し、検出した結果を処理部202に出力する。操作部201は、例えば表示部203上に設けられたタッチパネル式のセンサー、またはキーボードである。 The operation unit 201 detects a user's operation and outputs the detection result to the processing unit 202 . The operation unit 201 is, for example, a touch panel type sensor provided on the display unit 203 or a keyboard.

処理部202は、通信部204が出力するテキスト情報を取得し、取得したテキスト情報を画像データに変換し、変換した画像データを表示部203に出力する。処理部202は、操作部201が操作された結果に基づいて入力されたテキスト情報を通信部204に出力する。なお、テキスト情報には、端末20の識別情報が含まれている。処理部202は、操作部201が操作された結果に基づいて入力されたテキスト情報を画像データに変換し、変換した画像データを表示部203に出力する。なお、表示部203上に表示される画像については、図3を用いて後述する。 The processing unit 202 acquires text information output by the communication unit 204 , converts the acquired text information into image data, and outputs the converted image data to the display unit 203 . The processing unit 202 outputs to the communication unit 204 the text information input based on the result of operating the operation unit 201 . Note that the text information includes identification information of the terminal 20 . The processing unit 202 converts input text information into image data based on the result of operating the operation unit 201 , and outputs the converted image data to the display unit 203 . Images displayed on the display unit 203 will be described later with reference to FIG.

表示部203は、例えば液晶表示装置、有機EL(エレクトロルミネッセンス)表示装置、電子インク表示装置等である。表示部203は、処理部202が出力した画像データを表示する。 The display unit 203 is, for example, a liquid crystal display device, an organic EL (electroluminescence) display device, an electronic ink display device, or the like. A display unit 203 displays the image data output by the processing unit 202 .

通信部204は、テキスト情報または議事録の情報を会議支援装置30から受信し、受信した受信情報を処理部202に出力する。通信部204は、処理部202が出力するテキスト情報を会議支援装置30へ送信する。 The communication unit 204 receives text information or minutes information from the conference support device 30 and outputs the received information to the processing unit 202 . The communication unit 204 transmits the text information output by the processing unit 202 to the conference support device 30 .

次に、音響モデル・辞書DB40について説明する。
音響モデル・辞書DB40には、例えば音響モデル、言語モデル、単語辞書等が格納されている。音響モデルとは、音の特徴量に基づくモデルであり、言語モデルとは、単語とその並び方の情報のモデルである。また、単語辞書とは、多数の語彙による辞書であり、例えば大語彙単語辞書である。
Next, the acoustic model/dictionary DB 40 will be described.
The acoustic model/dictionary DB 40 stores, for example, acoustic models, language models, word dictionaries, and the like. An acoustic model is a model based on sound feature values, and a language model is a model of information on words and how they are arranged. A word dictionary is a dictionary with a large number of vocabularies, for example, a large vocabulary word dictionary.

次に、議事録・音声ログ記憶部50について説明する。
議事録・音声ログ記憶部50は、議事録(含む音声信号)を記憶する。
Next, the minutes/audio log storage unit 50 will be described.
The minutes/audio log storage unit 50 stores minutes (including audio signals).

次に、会議支援装置30について説明する。
会議支援装置30は、例えばパーソナルコンピュータ、サーバ、スマートフォン、タブレット端末等のうちのいずれかである。なお、会議支援装置30は、入力装置10がマイクロフォンアレイの場合、音源定位部、音源分離部、および音源同定部をさらに備える。会議支援装置30は、参加者によって発話された音声信号を、例えば発話毎に音声認識してテキスト化する。そして、会議支援装置30は、テキスト化した発話内容のテキスト情報を、表示部311に表示させ、参加者の端末20に送信する。会議支援装置30は、発話された音声信号に対して音声認識を行う際、音質の確認(例えば音声の音量を確認)し、音量が所定値以下の場合、表示部311の表示を変更する。また、会議支援装置30は、会議で使用されている入力部11、端末20を記憶している。
Next, the conference support device 30 will be described.
The conference support device 30 is, for example, a personal computer, a server, a smart phone, a tablet terminal, or the like. When the input device 10 is a microphone array, the conference support device 30 further includes a sound source localization section, a sound source separation section, and a sound source identification section. The conference support device 30 converts voice signals uttered by the participants into text by performing voice recognition for each utterance, for example. Then, the conference support device 30 causes the display unit 311 to display the text information of the utterance contents converted into text, and transmits the text information to the terminals 20 of the participants. The conference support device 30 checks the sound quality (for example, checks the volume of the voice) when performing speech recognition on an uttered voice signal, and changes the display on the display unit 311 when the volume is equal to or less than a predetermined value. The conference support device 30 also stores the input unit 11 and terminal 20 used in the conference.

取得部301は、入力部11が出力する音声信号を取得し、取得した音声信号を音声認識部302に出力する。なお、取得した音声信号がアナログ信号の場合、取得部301は、アナログ信号をデジタル信号に変換し、デジタル信号に変換した音声信号を音声認識部302に出力する。なお、音声信号には、使用された入力部11の識別情報(例えばMic1、Mic3、…)を含んでいる。 Acquisition unit 301 acquires a speech signal output from input unit 11 and outputs the acquired speech signal to speech recognition unit 302 . Note that when the acquired voice signal is an analog signal, the acquisition unit 301 converts the analog signal into a digital signal and outputs the voice signal converted into the digital signal to the voice recognition unit 302 . The audio signal includes identification information of the input unit 11 used (for example, Mic1, Mic3, . . . ).

音声認識部302は、入力部11が複数の場合、入力部11を使用する話者毎に音声認識を行う。
音声認識部302は、取得部301が出力する音声信号を取得する。音声認識部302は、取得部301が出力した音声信号から発話区間の音声信号を検出する。発話区間の検出は、例えば所定のしきい値以上の音声信号を発話区間として検出する。なお、音声認識部302は、発話区間の検出を周知の他の手法を用いて行ってもよい。音声認識部302は、検出した発話区間の音声信号に対して、音響モデル・辞書DB40を参照して、周知の手法を用いて音声認識を行う。なお、音声認識部302は、例えば特開2015-64554号公報に開示されている手法等を用いて音声認識を行う。音声認識部302は、認識した認識結果と音声信号に入力部11の識別情報を含めてテキスト変換部304に出力する。なお、音声認識部302は、認識結果と音声信号とを、例えば1文毎、または発話句間毎、または話者毎に対応つけて出力する。音声認識部302は、認識した認識結果と音声信号を音質確認部303に出力する。
When there are a plurality of input units 11 , the speech recognition unit 302 performs speech recognition for each speaker using the input unit 11 .
A voice recognition unit 302 acquires the voice signal output by the acquisition unit 301 . A voice recognition unit 302 detects a voice signal in an utterance period from the voice signal output by the acquisition unit 301 . Speech section detection detects, for example, an audio signal equal to or greater than a predetermined threshold value as a speech section. Note that the speech recognition unit 302 may detect the speech period using another well-known method. The speech recognition unit 302 refers to the acoustic model/dictionary DB 40 and performs speech recognition using a well-known technique on the detected speech signal of the speech period. Note that the speech recognition unit 302 performs speech recognition using, for example, the method disclosed in Japanese Patent Application Laid-Open No. 2015-64554. The speech recognition unit 302 includes identification information of the input unit 11 in the recognition result and the speech signal and outputs them to the text conversion unit 304 . Note that the speech recognition unit 302 outputs the recognition result and the speech signal in correspondence with each other, for example, for each sentence, between each uttered phrase, or for each speaker. The speech recognition unit 302 outputs the recognized recognition result and the speech signal to the sound quality confirmation unit 303 .

音質確認部303は、音声認識部302が出力する認識結果と音声信号に基づいて、話者毎に音質(例えば音量、発話スピード)の確認を行う。音質確認部303は、音質確認した結果、例えば、音量が所定値以下の場合または発話スピードが所定スピード以上の場合に、音声認識の精度が下がる可能性があると判定し、音質が悪いことを示す音質NG情報を処理部310に出力する。なお、音質確認部303は、音質が良いことを示す音質OK情報を処理部310に出力するようにしてもよい。なお、音質確認部303は、音質NG情報を、音質が悪いと判定された話者に対応する発話が終了するまで出力し続ける。 The sound quality confirmation unit 303 confirms the sound quality (for example, volume, speech speed) of each speaker based on the recognition result and the speech signal output by the speech recognition unit 302 . As a result of checking the sound quality, for example, when the volume is below a predetermined value or the speaking speed is above a predetermined speed, the sound quality confirmation unit 303 determines that the accuracy of speech recognition may decrease, and determines that the sound quality is poor. The indicated sound quality NG information is output to the processing unit 310 . Note that the sound quality confirmation unit 303 may output sound quality OK information indicating that the sound quality is good to the processing unit 310 . Note that the sound quality confirmation unit 303 continues to output the sound quality NG information until the utterance corresponding to the speaker judged to have poor sound quality ends.

テキスト変換部304は、音声認識部302が出力した認識結果に基づいて、テキストに変換する。テキスト変換部304は、変換したテキスト情報と音声信号に入力部11の識別情報を含めて係り受け解析部305に出力する。なお、テキスト変換部304は、「あー」、「えーと」、「えー」、「まあ」等の間投詞を削除してテキストに変換するようにしてもよい。 A text conversion unit 304 converts the recognition result output from the speech recognition unit 302 into text. The text conversion unit 304 includes the identification information of the input unit 11 in the converted text information and voice signal and outputs them to the dependency analysis unit 305 . Note that the text conversion unit 304 may remove interjections such as "ah", "um", "er", and "well" and convert them into text.

係り受け解析部305は、テキスト変換部304が出力したテキスト情報に対して形態素解析と係り受け解析を行う。係り受け解析には、例えば、Shift-reduce法や全域木の手法やチャンク同定の段階適用手法においてSVM(Support Vector Machines)を用いる。係り受け解析部305は、係り受け解析した結果のテキスト情報と音声信号に入力部11の識別情報を含めて議事録作成部306に出力する。 The dependency analysis unit 305 performs morphological analysis and dependency analysis on the text information output from the text conversion unit 304 . For dependency analysis, SVM (Support Vector Machines) is used in, for example, the Shift-reduce method, the spanning tree method, and the stepwise application method for chunk identification. The dependency analysis unit 305 outputs the result of the dependency analysis to the minutes creation unit 306, including the identification information of the input unit 11 in the text information and voice signal.

議事録作成部306は、係り受け解析部305が出力したテキスト情報と音声信号に基づいて、発話者毎に分けて、議事録を作成する。議事録作成部306は、係り受け解析部305が出力したテキスト情報と入力部11の識別情報に基づいて、入力部11毎にテキスト情報を作成する。議事録作成部306は、作成した入力部11毎のテキスト情報を処理部310に出力する。議事録作成部306は、作成した議事録と対応する音声信号を議事録・音声ログ記憶部50に記憶させる。なお、議事録作成部306は、「あー」、「えーと」、「えー」、「まあ」等の間投詞を削除して議事録を作成するようにしてもよい。 The minutes creation unit 306 creates minutes for each speaker based on the text information and the voice signal output by the dependency analysis unit 305 . The minutes creation unit 306 creates text information for each input unit 11 based on the text information output by the dependency analysis unit 305 and the identification information of the input unit 11 . The minutes creation unit 306 outputs the created text information for each input unit 11 to the processing unit 310 . The minutes creation unit 306 causes the minutes/audio log storage unit 50 to store the created minutes and the corresponding audio signal. Note that the minutes creation unit 306 may create the minutes by deleting interjections such as “ah”, “um”, “er”, and “well”.

通信部307は、端末20と情報の送受信を行う。端末20から受信する情報には、テキスト情報、過去の議事録の送信を要請する送信要望等が含まれている。なお、テキスト情報、過去の議事録の送信を要請する送信要望には、送信要望を送信した端末20を識別するための識別情報が含まれている。端末20に送信する情報には、テキスト情報、過去の議事録の情報等が含まれている。通信部307は、端末20から受信した情報を処理部310に出力する。通信部307は、処理部310が出力するテキスト情報、過去の議事録の情報等を端末20へ送信する。 A communication unit 307 transmits and receives information to and from the terminal 20 . The information received from the terminal 20 includes text information, a transmission request requesting transmission of past minutes, and the like. Note that the transmission request requesting transmission of the text information and past minutes includes identification information for identifying the terminal 20 that has transmitted the transmission request. The information to be transmitted to the terminal 20 includes text information, information on past meeting minutes, and the like. The communication unit 307 outputs information received from the terminal 20 to the processing unit 310 . The communication unit 307 transmits text information output by the processing unit 310 , information on past minutes, etc. to the terminal 20 .

操作部309は、例えばキーボード、マウス、表示部311上に設けられているタッチパネルセンサー等である。操作部309は、利用者の操作結果を検出して、検出した操作結果を処理部310に出力する。 The operation unit 309 is, for example, a keyboard, a mouse, a touch panel sensor provided on the display unit 311, and the like. The operation unit 309 detects a user's operation result and outputs the detected operation result to the processing unit 310 .

処理部310は、議事録作成部306が作成した入力部11毎のテキスト情報を表示部311に表示させ、通信部307に出力する。処理部310は、取得したテキスト情報を表示部311に表示させる。処理部310は、音質確認部303が出力する音質NG情報または音質OK情報を取得する。処理部310は、音質NG情報を取得した場合、音質NG情報に基づいて、音質NG情報と判定された発話者の発話が終了するまで、その発話者のテキスト情報の表示部311の表示を変更する。なお、表示の変更例は後述する。処理部310は、過去の議事録の情報の送信要望を取得した場合、議事録・音声ログ記憶部50から過去の議事録の情報を読み出し、読み出した過去の議事録の情報を通信部307に出力する。 The processing unit 310 causes the display unit 311 to display the text information for each input unit 11 created by the minutes creation unit 306 and outputs the text information to the communication unit 307 . The processing unit 310 causes the display unit 311 to display the acquired text information. The processing unit 310 acquires the sound quality NG information or the sound quality OK information output by the sound quality confirmation unit 303 . When the sound quality NG information is acquired, the processing unit 310 changes the display of the text information of the speaker based on the sound quality NG information on the display unit 311 until the speech of the speaker determined as the sound quality NG information ends. do. An example of changing the display will be described later. When the processing unit 310 acquires a transmission request for information on the past minutes, the processing unit 310 reads the information on the past minutes from the minutes/audio log storage unit 50 and sends the read information on the past minutes to the communication unit 307. Output.

表示部311は、例えば液晶表示装置、有機EL表示装置、電子インク表示装置等である。表示部311は、処理部310が出力したテキスト情報を表示する。表示部311は、処理部310の処理に応じて表示を変更する。 The display unit 311 is, for example, a liquid crystal display device, an organic EL display device, an electronic ink display device, or the like. A display unit 311 displays the text information output by the processing unit 310 . The display unit 311 changes display according to the processing of the processing unit 310 .

なお、入力装置10がマイクロフォンアレイの場合、会議支援装置30は、音源定位部、音源分離部、および音源同定部をさらに備える。この場合、会議支援装置30は、取得部301が取得した音声信号に対して予め生成した伝達関数を用いて音源定位部が音源定位を行う。そして、会議支援装置30は、音源定位部が定位して結果を用いて話者同定を行う。会議支援装置30は、音源定位部が定位して結果を用いて、取得部301が取得した音声信号に対して音源分離を行う。そして、会議支援装置30の音声認識部302は、分離された音声信号に対して発話区間の検出と音声認識を行う(例えば特開2017-9657号公報参照)。また、会議支援装置30は、残響音抑圧処理を行うようにしてもよい。 When the input device 10 is a microphone array, the conference support device 30 further includes a sound source localization section, a sound source separation section, and a sound source identification section. In this case, the sound source localization unit of the conference support device 30 performs sound source localization using a transfer function generated in advance for the audio signal acquired by the acquisition unit 301 . Then, the conference support device 30 localizes the sound source and uses the result to identify the speaker. The conference support device 30 performs sound source separation on the audio signal acquired by the acquisition unit 301 using the localization result of the sound source localization unit. Then, the speech recognition unit 302 of the conference support device 30 performs speech segment detection and speech recognition on the separated speech signal (see, for example, Japanese Unexamined Patent Application Publication No. 2017-9657). Further, the conference support device 30 may perform reverberation suppression processing.

<音質確認方法の例>
次に、音質確認方法について説明する。
会議支援装置30の音質確認部303は、例えば収音された音声信号の音量を確認し、音声信号が所定の範囲内であれば音質OKと判定し、音声信号が所定の範囲外であれば音質NGと判定するようにしてもよい。具体的には、音質確認部303は、音量が大きすぎるまたは小さすぎる場合に音質NGと判定する。
または、音質確認部303は、例えば収音された音声信号の発話スピード(収音発話スピード)と、自部が記憶する比較対象の音声信号の発話スピード(標準発話スピード)とを比較し、収音発話スピードの方が標準発話スピードより速い場合(例えば早さ比が所定値以上の場合)に、発話スピードが速すぎるため音質NGと判定するようにしてもよい。
<Example of sound quality confirmation method>
Next, a sound quality confirmation method will be described.
The sound quality confirmation unit 303 of the conference support device 30, for example, confirms the volume of the collected sound signal, determines that the sound quality is OK if the sound signal is within a predetermined range, and determines that the sound quality is OK if the sound signal is outside the predetermined range. It may be determined that the sound quality is NG. Specifically, the sound quality confirmation unit 303 determines that the sound quality is NG when the volume is too loud or too low.
Alternatively, the sound quality confirmation unit 303 compares, for example, the utterance speed of the picked-up audio signal (collected utterance speed) with the utterance speed of the comparison target audio signal (standard utterance speed) stored in the self unit, and When the sound speech speed is faster than the standard speech speed (for example, when the speed ratio is equal to or higher than a predetermined value), the speech speed is too fast and the sound quality may be determined as NG.

<会議例>
ここで、以下の説明における会議例を説明する。
図2は、本実施形態に係る会議例を示す図である。図2に示す例では、会議の参加者(第1の参加者h1、第2の参加者h2、第3の参加者h3)が3人である。ここで、第2の参加者h2は、聴覚者であるが、発話が可能であるとする。また、第3の参加者h3は、聴覚者であり、発話が不自由であるとする。第1の参加者h1は、入力部11-1(マイクロフォン)を使用して発話する。第2の参加者h2は、入力部11-2を使用して発話する。第1の参加者h1と第2の参加者h2は、会議支援装置30の表示部311を見ている。第3の参加者h3は、端末20-1を使用している。なお、会議はTV会議であってもよい。
<Meeting example>
Here, a meeting example in the following description will be described.
FIG. 2 is a diagram showing an example of a conference according to this embodiment. In the example shown in FIG. 2, there are three conference participants (first participant h1, second participant h2, and third participant h3). Here, it is assumed that the second participant h2 is hearing but capable of speaking. It is also assumed that the third participant h3 is a hearing person and has a speech impediment. A first participant h1 speaks using the input unit 11-1 (microphone). A second participant h2 speaks using the input unit 11-2. A first participant h1 and a second participant h2 are looking at the display section 311 of the conference support device 30 . A third participant h3 uses the terminal 20-1. Note that the conference may be a TV conference.

<端末の表示例>
次に、端末20の表示部203に表示される情報例を説明する。
図3は、本実施形態に係る端末20の表示部203に表示される情報例を示す図である。
左の丸g101~g103は、発話者またはテキスト入力を行った入力部11(マイクロフォン)または端末20を表している。丸g101は入力部11-1(Mic1)によって発話されたことを表し、丸g102は端末20-1(Tab)によって入力されたことを表し、丸g103は入力部11-2(Mic2)によって発話されたことを表す。
<Device display example>
Next, an example of information displayed on the display unit 203 of the terminal 20 will be described.
FIG. 3 is a diagram showing an example of information displayed on the display unit 203 of the terminal 20 according to this embodiment.
The circles g101 to g103 on the left represent the speaker or the input unit 11 (microphone) or terminal 20 that performed text input. A circle g101 indicates that the input unit 11-1 (Mic1) has been uttered, a circle g102 indicates that the terminal 20-1 (Tab) has been input, and a circle g103 has been uttered by the input unit 11-2 (Mic2). Represents what was done.

テキスト画像g111~g117は、発話された音声信号を音声認識した結果のテキスト情報、または端末20-1によって入力されたテキスト情報を表す。テキスト画像g111、g114、g115、g117は入力部11-1(Mic1)によって発話されたテキスト情報を表し、テキスト画像g112は端末20-1(Tab)によって入力されたテキスト情報を表し、テキスト画像g113、g116は入力部11-2(Mic2)によって発話されたテキスト情報を表す。 The text images g111 to g117 represent text information obtained as a result of speech recognition of an uttered voice signal or text information input by the terminal 20-1. Text images g111, g114, g115, and g117 represent text information spoken by the input unit 11-1 (Mic1), text image g112 represents text information input by the terminal 20-1 (Tab), and text image g113. , g116 represent text information spoken by the input unit 11-2 (Mic2).

ボタン画像g121~g122は、ボタン画像である。ボタン画像g121は利用者がテキスト入力する際に選択し、ボタン画像g122は入力したテキスト画像を会議支援装置30へ送信する際に選択する。 Button images g121 to g122 are button images. The button image g121 is selected when the user inputs text, and the button image g122 is selected when transmitting the input text image to the conference support device 30. FIG.

<会議支援装置の表示例>
次に、会議支援装置30の表示部311に表示される情報例を説明する。
図4は、本実施形態に係る会議支援装置30の表示部311に表示される情報例を示す図である。なお、図4の表示は、発話された音声がNGと判定されなかった場合の表示である。
<Display example of conference support device>
Next, an example of information displayed on the display unit 311 of the conference support device 30 will be described.
FIG. 4 is a diagram showing an example of information displayed on the display unit 311 of the conference support device 30 according to this embodiment. Note that the display in FIG. 4 is a display when the uttered voice is not determined to be NG.

図4において、表示部311の左側領域g200は、設定のためのボタン画像等が表示される領域である。表示部311の右領域g250は、テキスト情報等が表示される領域である。 In FIG. 4, the left area g200 of the display unit 311 is an area where button images for setting and the like are displayed. A right area g250 of the display unit 311 is an area where text information and the like are displayed.

領域g201は、会議支援装置30の使用開始、使用終了等の設定を行うボタン画像等が表示される領域である。
領域g202は、使用する端末20の設定を行うボタン画像等が表示される領域である。
領域g203は、使用する入力部11等の設定を行うボタン画像等が表示される領域である。
領域g204は、会議中の発話の録音、削除、過去の議事録の参照等の設定を行うボタン画像等が表示される領域である。
The area g201 is an area where a button image or the like for setting start or end of use of the conference support device 30 is displayed.
The area g202 is an area where a button image or the like for setting the terminal 20 to be used is displayed.
The area g203 is an area where a button image or the like for setting the input unit 11 or the like to be used is displayed.
An area g204 is an area where button images and the like for setting settings such as recording and deleting speech during the meeting and referring to minutes of past meetings are displayed.

丸g251~g252は、発話者またはテキスト入力を行った入力部11(マイクロフォン)または端末20を表している。丸g251は入力部11-1(Mic1)によって発話されたことを表し、丸g252は入力部11-2(Mic2)によって発話されたことを表す。 Circles g251 to g252 represent the speaker or the input unit 11 (microphone) or terminal 20 that performed text input. A circle g251 indicates that the input unit 11-1 (Mic1) is used, and a circle g252 indicates that the input unit 11-2 (Mic2) is used.

テキスト画像g261~g262は、発話された音声信号を音声認識した結果のテキスト情報、または端末20-1によって入力されたテキスト情報を表す。テキスト画像g261は入力部11-1(Mic1)によって発話されたテキスト情報を表し、テキスト画像g262は入力部11-2(Mic2)によって発話されたテキスト情報を表す。
ボタン画像g271は、発話または、テキスト入力されたテキスト情報を削除する場合に選択されるボタン画像を表す。テキスト画像g281は、テキスト情報が発話または入力された時刻を表す。また、テキスト表示領域g300には、テキスト情報が発話または入力された入力部11または端末20を表す画像、テキスト画像、削除する場合に選択されるボタン画像が含まれている。
Text images g261 and g262 represent text information obtained as a result of speech recognition of an uttered voice signal or text information input from the terminal 20-1. A text image g261 represents text information spoken by the input unit 11-1 (Mic1), and a text image g262 represents text information spoken by the input unit 11-2 (Mic2).
The button image g271 represents a button image that is selected when deleting uttered or text-inputted text information. The text image g281 represents the time when the text information was spoken or input. The text display area g300 also includes an image representing the input unit 11 or the terminal 20 where text information is spoken or input, a text image, and a button image selected when deleting.

ボタン画像g291~g292は、ボタン画像である。ボタン画像g291は利用者がテキスト入力する際に選択し、ボタン画像g292は入力したテキスト画像を端末20へ送信する際に選択する。
テキスト入力欄画像g293は、利用者がテキスト入力する際、入力されたテキスト情報が表示される欄を表している。
Button images g291 to g292 are button images. The button image g291 is selected when the user inputs text, and the button image g292 is selected when transmitting the input text image to the terminal 20. FIG.
The text input field image g293 represents a field in which input text information is displayed when the user inputs text.

次に、会議支援装置30の表示部311上の表示が、音質NGの判定によって変化する例を説明する。
図5は、本実施形態に係る会議支援装置30の表示部311上の表示が、音質NGの判定によって変化する例を示す図である。なお、図5では、表示部311上に表示される画像のうちテキスト表示領域g300のみを示している。
Next, an example in which the display on the display unit 311 of the conference support device 30 changes according to the judgment of the sound quality NG will be described.
FIG. 5 is a diagram showing an example in which the display on the display unit 311 of the conference support device 30 according to this embodiment changes depending on the judgment of the sound quality NG. Note that FIG. 5 shows only the text display area g300 of the images displayed on the display unit 311. As shown in FIG.

テキスト表示領域画像g300aの例は、Mic2(入力部11-2)を用いて発話された音声信号が、音質NGの場合の表示例である。音質NGの場合は、例えば、音質NGに対応する話者のテキスト情報(発話情報)の文字のテキスト情報画像g301aが、音質NGではない他のテキスト情報画像g302と比べて、小さく表示される。これにより、発話された音声の音量が小さかったことが視覚的に分かる。なお、このようなテキスト情報の表示の変更は、会議支援装置30の表示部311に対して行い、発話障害者または聴覚者が使用している端末20の表示部203に表示されるテキスト情報の表示は変更しない。 An example of the text display area image g300a is a display example when the voice signal uttered using Mic2 (input unit 11-2) has a sound quality of NG. When the sound quality is NG, for example, the text information image g301a of the text information (utterance information) of the speaker corresponding to the sound quality NG is displayed smaller than the other text information image g302 that is not the sound quality NG. As a result, it can be visually recognized that the volume of the uttered voice was low. Note that such a change in display of the text information is performed on the display unit 311 of the conference support device 30, and the text information displayed on the display unit 203 of the terminal 20 used by the speech-impaired person or hearing person is changed. Do not change the display.

テキスト表示領域画像g300bの例は、音質NGに対応する話者の発話が終了し、表示部311上の表示の変更を元に戻した例である。処理部310は、テキスト表示領域画像g300aで文字が他のテキスト情報より小さく表示されていたテキスト情報画像g301aを、例えば変更して表示した後所定時間が経過した後に、文字の大きさを元に戻したテキスト画像g301bに変更する。なお、処理部310は、テキスト表示領域画像g300bのように、文字の大きさを元に戻したテキスト情報の文字を、例えばイタリック等、音質NGではない他のテキスト情報画像g302と異なるように表示させるようにしてもよい。 The example of the text display area image g300b is an example in which the change of the display on the display unit 311 is restored after the speaker's speech corresponding to the sound quality NG is finished. The processing unit 310 changes the text information image g301a in which the characters are displayed smaller than the other text information in the text display area image g300a, for example, after a predetermined time has passed after the text information image g301a is changed and displayed, based on the character size Change to the returned text image g301b. Note that the processing unit 310 displays the characters of the text information whose character size is restored to the original size, such as the text display area image g300b, in a manner different from that of the other text information images g302 whose sound quality is not NG, such as italics. You can let it run.

なお、上述した例では、音質NGに対応する発話のテキスト情報を端末20に表示させる場合、文字を小さくせず変更せずに表示させる例を説明したが、これに限らない。音質NGの場合、音量または発話スピード(発話速度)が所定の範囲外であるため、音声認識の精度が低下している可能性がある。このため、処理部310は、端末20へ送信するテキスト情報の表示を、音質OKのテキスト情報の表示と異なるように変更、例えば太字、するようにしてもよい。 In the above example, when the text information of the utterance corresponding to the sound quality NG is displayed on the terminal 20, an example is explained in which the characters are displayed without being made small or changed, but the present invention is not limited to this. If the sound quality is NG, the volume or speech speed (speech speed) is out of a predetermined range, so there is a possibility that the accuracy of speech recognition is degraded. For this reason, the processing unit 310 may change the display of the text information to be transmitted to the terminal 20 so as to be different from the display of the text information indicating that the sound quality is OK, for example, to make it bold.

なお、図5に示した音質NGの場合の画面変更例は一例であり、これに限らない。例えば、会議支援装置30は、音質NGを受信した場合、表示の変更は文字の大きさの変更に限られない。処理部310は、例えば、テキスト表示領域画像g300aの例のように文字をイタリックなどに変更してもよく、テキストの色を変えても良く、文字を細字で表示させるようにしてもよく、画面を震えるように表示させてもよく、文字にマスクをかけてもよい。この場合、処理部310は、音質NGではない他のテキスト画像と比較して、音質NGのテキスト画像を視覚しにくく、すなわち読みにくくするようにしてもよい。 Note that the screen change example in the case of the sound quality NG shown in FIG. 5 is an example, and the present invention is not limited to this. For example, when the conference support device 30 receives the sound quality NG, the display change is not limited to changing the character size. For example, the processing unit 310 may change the characters to italic or the like as in the example of the text display area image g300a, may change the color of the text, may display the characters in fine print, and may display the characters on the screen. may be displayed so as to tremble, or the characters may be masked. In this case, the processing unit 310 may make the text image with the NG sound quality less visible, that is, more difficult to read, than the text image with the NG sound quality.

<会議支援システムの処理手順例>
次に、会議支援システムの処理手順を説明する。
図6は、本実施形態に係る会議支援システム1の処理手順例を示すシーケンス図である。図6の例では、会議の参加者が3人であり、2人が入力部11を使用し、1人が端末20-1を利用する例である。
<Example of processing procedure of meeting support system>
Next, the processing procedure of the conference support system will be described.
FIG. 6 is a sequence diagram showing a processing procedure example of the conference support system 1 according to this embodiment. In the example of FIG. 6, there are three participants in the conference, two using the input unit 11, and one using the terminal 20-1.

(ステップS1)会議支援装置30の処理部310は、利用者が操作部309を操作した操作結果に基づいて、使用される入力部11の設定を行う。この例では、入力部11-1(Mic1)と、入力部11-2(Mic2)が使用される。 (Step S<b>1 ) The processing unit 310 of the conference support device 30 sets the input unit 11 to be used based on the operation result of the operation of the operation unit 309 by the user. In this example, input section 11-1 (Mic1) and input section 11-2 (Mic2) are used.

(ステップS2)端末20-1の処理部202は、利用者が操作部201を操作した操作結果に基づいて、入力されたテキスト情報を取得する。続けて、処理部202は、表示部203上に入力されたテキスト情報を表示させる。 (Step S2) The processing unit 202 of the terminal 20-1 acquires input text information based on the operation result of the user's operation of the operation unit 201. FIG. Subsequently, the processing unit 202 causes the input text information to be displayed on the display unit 203 .

(ステップS3)端末20-1の処理部202は、利用者が操作部201を操作した操作結果に基づいて、入力されたテキスト情報を会議支援装置30へ送信する。 (Step S3) The processing unit 202 of the terminal 20-1 transmits the input text information to the conference support device 30 based on the operation result of the operation of the operation unit 201 by the user.

(ステップS4)会議支援装置30の処理部310は、受信したテキスト情報を表示部311上に表示させる。 (Step S4) The processing unit 310 of the conference support device 30 causes the display unit 311 to display the received text information.

(ステップS5)入力部11-1は、収音した音声信号を会議支援装置30に出力する。 (Step S5) The input unit 11-1 outputs the picked-up voice signal to the conference support device 30. FIG.

(ステップS6)会議支援装置30は、話者の発話を取得した音声信号に対して音声認識処理、係り受け処理を行う。 (Step S6) The conference support device 30 performs speech recognition processing and dependency processing on the audio signal obtained by acquiring the speech of the speaker.

(ステップS7)会議支援装置30の音質確認部303は、入力部11-1が収音した音声信号の音量等の音質を確認する。この場合、音質確認部303は、収音された音声信号の音質を音質OKであると判定する。 (Step S7) The sound quality confirmation unit 303 of the conference support device 30 confirms the sound quality such as the volume of the audio signal picked up by the input unit 11-1. In this case, the sound quality confirmation unit 303 determines that the sound quality of the collected audio signal is acceptable.

(ステップS8)会議支援装置30の処理部310は、音声認識処理等されたテキスト情報を表示部311上に表示させる。 (Step S8) The processor 310 of the conference support device 30 causes the display 311 to display the text information that has undergone speech recognition processing.

(ステップS9)会議支援装置30の処理部310は、音声認識処理等されたテキスト情報を、通信部307を介して端末20-1へ送信する。 (Step S9) The processing unit 310 of the conference support device 30 transmits the text information that has undergone speech recognition processing or the like to the terminal 20-1 via the communication unit 307. FIG.

(ステップS10)端末20-1の処理部202は、受信したテキスト情報を表示部203上に表示させる。 (Step S10) The processing unit 202 of the terminal 20-1 causes the display unit 203 to display the received text information.

(ステップS11)入力部11-2は、話者の発話を収音した音声信号を会議支援装置30に出力する。 (Step S11) The input unit 11-2 outputs to the conference support device 30 an audio signal obtained by picking up the speech of the speaker.

(ステップS12)会議支援装置30は、取得した音声信号に対して音声認識処理、係り受け処理等を行う。 (Step S12) The conference support device 30 performs voice recognition processing, dependency processing, etc. on the acquired voice signal.

(ステップS13)会議支援装置30の音質確認部303は、入力部11-1が収音した音声信号の音量等の音質を確認する。この場合、音質確認部303は、収音された音声信号の音質を音質NGであると判定する。 (Step S13) The sound quality confirmation unit 303 of the conference support device 30 confirms the sound quality such as volume of the audio signal picked up by the input unit 11-1. In this case, the sound quality confirmation unit 303 determines that the sound quality of the collected audio signal is NG.

(ステップS14)会議支援装置30の処理部310は、音質確認部303が出力する音質NG情報に基づいて、対応する発話のテキスト情報の表示を変更する。続けて、処理部310は、変更したテキスト情報を表示部311上に表示させる。なお、処理部310は、この発話の音質がNGであるため、音声認識の精度が悪い可能性があることを示す情報を、通信部307を介して端末20-1に送信するようにしてもよい。この場合、受信した端末20は、受信した音声認識の精度が悪い可能性があることを示す情報を、表示部203に表示させるようにしてもよい。 (Step S<b>14 ) The processor 310 of the conference support device 30 changes the display of the text information of the corresponding utterance based on the NG sound quality information output by the sound quality checker 303 . Subsequently, the processing unit 310 causes the display unit 311 to display the changed text information. Note that processing unit 310 may transmit information indicating that the accuracy of speech recognition may be poor, to terminal 20-1 via communication unit 307, because the sound quality of this utterance is NG. good. In this case, the receiving terminal 20 may cause the display unit 203 to display information indicating that the accuracy of the received speech recognition may be poor.

(ステップS15)会議支援装置30の処理部310は、音声認識処理等されたテキスト情報を、通信部307を介して端末20-1へ送信する。 (Step S15) The processing unit 310 of the conference support device 30 transmits the text information that has undergone speech recognition processing or the like to the terminal 20-1 via the communication unit 307. FIG.

(ステップS16)端末20-1の処理部202は、受信したテキスト情報を表示部203上に表示させる。 (Step S16) The processing unit 202 of the terminal 20-1 causes the display unit 203 to display the received text information.

(ステップS17)会議支援装置30の処理部310は、テキスト情報の表示変更を行った後、所定時間が経過したか否かを判定する。処理部310は、所定時間が経過したと判定した場合、対応する発話のテキスト情報の表示に対して、変更した表示を元に戻す。 (Step S17) The processing unit 310 of the conference support device 30 determines whether or not a predetermined time has passed after changing the display of the text information. When the processing unit 310 determines that the predetermined time has passed, the processing unit 310 returns the changed display to the display of the text information of the corresponding utterance.

なお、図6に示した処理手順は一例であり、例えばステップS12とS13の処理は同時に行われてもよく、処理順番が逆であってもよい。 Note that the processing procedure shown in FIG. 6 is an example, and for example, the processing of steps S12 and S13 may be performed simultaneously, or the processing order may be reversed.

<音質確認時の処理手順例>
次に、音質確認時の会議支援システムの処理手順を説明する。
図7は、本実施形態に係る音質確認時の会議支援システム1の処理のフローチャートである。なお、以下の処理例では、音質確認処理の一例として、音量を確認する例を説明する。
<Example of processing procedure when checking sound quality>
Next, the processing procedure of the conference support system when confirming sound quality will be described.
FIG. 7 is a flow chart of processing of the conference support system 1 at the time of sound quality confirmation according to the present embodiment. In the processing example below, an example of confirming the sound volume will be described as an example of the sound quality confirmation processing.

(ステップS101)入力部11は、話者の発話を収音する。 (Step S101) The input unit 11 picks up the speech of the speaker.

(ステップS102)会議支援装置30の音声認識部302は、収音された音声信号に対して音声認識処理を行う。 (Step S102) The voice recognition unit 302 of the conference support device 30 performs voice recognition processing on the collected voice signal.

(ステップS103)会議支援装置30の音質確認部303は、収音された音響信号に対して、音量等を確認する処理である音質確認処理を行う。 (Step S103) The sound quality confirmation unit 303 of the conference support device 30 performs sound quality confirmation processing, which is processing for confirming the volume and the like, of the collected acoustic signal.

(ステップS104)会議支援装置30の処理部310は、音質確認部303が確認した結果に基づいて、音量等が適切であるか(音質OK)否かを判定する。会議支援装置30の処理部310は、音量等が適切であると判定した場合(ステップS104;YES)、ステップS105の処理に進める。会議支援装置30の処理部310は、音量等が適切ではないと判定した場合(ステップS104;NO)、ステップS106の処理に進める。 (Step S104) The processing unit 310 of the conference support device 30 determines whether or not the sound volume is appropriate (sound quality OK) based on the result checked by the sound quality checking unit 303 . When the processing unit 310 of the conference support device 30 determines that the volume and the like are appropriate (step S104; YES), the process proceeds to step S105. When the processing unit 310 of the conference support device 30 determines that the volume and the like are not appropriate (step S104; NO), the process proceeds to step S106.

(ステップS105)会議支援装置30の処理部310は、話者のテキスト情報の表示を変更せずに表示させる。処理後、処理部310は、処理を終了する。 (Step S105) The processing unit 310 of the conference support device 30 displays the speaker's text information without changing it. After processing, the processing unit 310 terminates the processing.

(ステップS106)会議支援装置30の処理部310は、音質NGに対応する話者のテキスト情報の表示を例えば文字を小さく変更する。処理後、処理部310は、ステップS107に勧める。 (Step S106) The processing unit 310 of the conference support device 30 changes the display of the text information of the speaker corresponding to the sound quality NG to smaller characters, for example. After processing, the processing unit 310 proceeds to step S107.

(ステップS107)会議支援装置30の処理部310は、音量等が適切ではなかった場合にテキスト情報を変更して表示部311上に表示させる。 (Step S107) The processing unit 310 of the conference support device 30 changes the text information and displays it on the display unit 311 when the volume or the like is not appropriate.

(ステップS108)会議支援装置30の処理部310は、表示を変更した場合、所定時間が経過したか否か判定する。処理部310は、所定時間が経過したと判定した場合(ステップS108;YES)、ステップS109の処理に進める。処理部310は、所定時間が経過していないと判定した場合(ステップS108;NO)、ステップS108の処理を繰り返す。 (Step S108) The processing unit 310 of the conference support device 30 determines whether or not a predetermined time has elapsed when the display is changed. If the processing unit 310 determines that the predetermined time has passed (step S108; YES), the process proceeds to step S109. If the processing unit 310 determines that the predetermined time has not passed (step S108; NO), it repeats the processing of step S108.

(ステップS109)会議支援装置30の処理部310は、所定時間が経過したと判定した場合、表示を元に戻す。 (Step S109) When the processing unit 310 of the conference support device 30 determines that the predetermined time has passed, the display is restored.

(ステップS110)会議支援装置30の処理部310は、音量等が適切ではなかったテキスト情報を元に戻す変更を行って表示部311上に表示させる。 (Step S<b>110 ) The processing unit 310 of the conference support device 30 restores the text information whose volume or the like was inappropriate and displays it on the display unit 311 .

なお、上述した例では、話者毎に異なる入力部11を用いて発話する例を説明したが、これに限らない。入力部11は1つであってもよい。この場合、複数の参加者は1つの入力部11を利用する。この場合、会議支援装置30は、例えば参加者毎の音声を登録しておき、音声認識によって発話者を認識して会議支援装置30の表示部311上に表示させ、端末20の表示部203上に表示させるようにしてもよい。または、会議支援装置30は、話者にかかわらず、使用されている入力部11に対応するマイクロフォンの番号(Mic1、Mic2)等を会議支援装置30の表示部311上に表示させ、端末20の表示部203上に表示させるようにしてもよい。 In addition, although the example mentioned above demonstrated the example which speaks using the input part 11 which differs for every speaker, it is not restricted to this. The number of input units 11 may be one. In this case, multiple participants use one input unit 11 . In this case, for example, the conference support device 30 registers the voice of each participant, recognizes the speaker by voice recognition, displays it on the display unit 311 of the conference support device 30, and displays it on the display unit 203 of the terminal 20. may be displayed. Alternatively, the conference support device 30 causes the display unit 311 of the conference support device 30 to display the microphone numbers (Mic1, Mic2) and the like corresponding to the input unit 11 being used regardless of the speaker. It may be displayed on the display unit 203 .

ここで、議事録の例を説明する。
図8は、本実施形態に係る議事録・音声ログ記憶部50が記憶する議事録の一例である。
会議支援装置30の処理部310は、議事録作成部306を制御して、待機要望を受信した際、受信した際に発話が行われている場合に1つ前の発話に対して待機要望が行われたことを議事録に関連づけて議事録・音声ログ記憶部50に記憶させるようにしてもよい。図8の例では、時刻11:03に行われた発話「フランスでは、現在・・・。」の内容を読み終わる前に、時刻11:05の次の発話「では、次は、・・・。」が始まった例である。この例では、発話「フランスでは、現在・・・。」の発話の音響信号の音質が適切では無かったため音質NGと判定された例である。この結果、会議支援装置30は、発話「フランスでは、現在・・・。」に関連づけて音質NGであったことを記憶する。これにより、本実施形態によれば、このような発話が、適切に音声認識できない可能性のあった発話であり、かつそのため発話障害者または聴覚者の理解に時間を要する可能性があることが分かり、次回以降の会議の進め方の参考になる。
Here, an example of minutes will be described.
FIG. 8 is an example of minutes stored in the minutes/audio log storage unit 50 according to the present embodiment.
The processing unit 310 of the meeting support device 30 controls the minutes creation unit 306 to receive the request to wait, and if an utterance is being made at the time of reception, the request to wait is given to the previous utterance. What has been done may be stored in the minutes/audio log storage unit 50 in association with the minutes. In the example of FIG. 8, before the content of the utterance "In France, now..." made at time 11:03 is finished, the next utterance at time 11:05 "Then, next..." .” is an example that started. In this example, since the sound quality of the acoustic signal of the utterance "In France, at present..." was not appropriate, the sound quality was determined to be NG. As a result, the conference support device 30 stores the fact that the sound quality was NG in association with the utterance "In France, now...". As a result, according to the present embodiment, it is possible that such utterances are utterances that could not be appropriately recognized, and that it may take time for the speech-impaired person or the hearing person to understand them. I understand, and it will be a reference for how to proceed with the next meeting.

本実施形態では、話者の発話が早やすぎるまたは音量が小さい場合、例えばテキスト情報の文字を小さくする、見えづらくするようにした。また、本実施形態では、テキストの情報の変形を、入力されて一定時間内で、一定時間が過ぎると通常の文字に戻すようにした。 In this embodiment, when the speaker speaks too quickly or the volume is low, for example, the characters of the text information are made smaller or less visible. Further, in this embodiment, the text information is transformed back to normal characters within a certain period of time after the information is input.

これにより、本実施形態によれば、話者は、自分が発した発話が早やすぎるまたは音量が小さいことを、表示される文字の大きさの変化によって知ることができる。また、本実施形態によれば、入力されて一定時間内で、一定時間が過ぎると通常の文字に戻すため、テキスト情報が読めるようになる。この結果、本実施形態によれば、話者が話した内容を見るだけで、自分の発話が適切でないことを気づくことができる。また、本実施形態によれば、インジケータなど、他の部分を見る必要がなく、話した内容のみに集中することができる。また、本実施形態では、発話の音質がNGの場合に、音声認識の精度が悪い可能性があることを示す情報を端末20に送信するようにした。そして、本実施形態では、受信した端末20が、受信した音声認識の精度が悪い可能性があることを示す情報を表示させるようにした。この結果、本実施形態によれば、端末20を使用している発話障害者または聴覚者が、表示されているテキスト情報の精度が悪い可能性があることを知ることができる。 Thus, according to the present embodiment, the speaker can know from changes in the size of the displayed characters that he or she is speaking too quickly or at a low volume. Further, according to the present embodiment, the text information can be read because the normal characters are restored after the predetermined time has elapsed after the input. As a result, according to this embodiment, it is possible to notice that one's utterance is inappropriate just by looking at the content of what the speaker has said. Moreover, according to the present embodiment, it is possible to concentrate only on the spoken content without looking at other parts such as indicators. Further, in the present embodiment, when the sound quality of the speech is NG, information indicating that the accuracy of speech recognition may be poor is transmitted to the terminal 20 . In this embodiment, the receiving terminal 20 displays information indicating that the accuracy of the received speech recognition may be poor. As a result, according to this embodiment, a speech-impaired person or a hearing person using the terminal 20 can know that the accuracy of the displayed text information may be poor.

なお、本発明における会議支援装置30の機能の全てまたは一部、または端末20の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより会議支援装置30が行う処理の全てまたは一部、または端末20が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。 A program for realizing all or part of the functions of the conference support device 30 or all or part of the functions of the terminal 20 in the present invention is recorded on a computer-readable recording medium and recorded on this recording medium. All or part of the processing performed by the conference support device 30 or all or part of the processing performed by the terminal 20 may be performed by causing the computer system to read and execute the program. It should be noted that the "computer system" referred to here includes hardware such as an OS and peripheral devices. Also, the "computer system" includes a WWW system provided with a home page providing environment (or display environment). The term "computer-readable recording medium" refers to portable media such as flexible discs, magneto-optical discs, ROMs and CD-ROMs, and storage devices such as hard discs incorporated in computer systems. In addition, "computer-readable recording medium" means a volatile memory (RAM) inside a computer system that acts as a server or client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. , includes those that hold the program for a certain period of time.

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。 Further, the above program may be transmitted from a computer system storing this program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in a transmission medium. Here, the "transmission medium" for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. Further, the program may be for realizing part of the functions described above. Further, it may be a so-called difference file (difference program) that can realize the above-described functions in combination with a program already recorded in the computer system.

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。 As described above, the mode for carrying out the present invention has been described using the embodiments, but the present invention is not limited to such embodiments at all, and various modifications and replacements can be made without departing from the scope of the present invention. can be added.

1…会議支援システム、10…入力装置、20,20-1,20-2…端末、30…会議支援装置、40…音響モデル・辞書DB、50…議事録・音声ログ記憶部、11,11-1,11-2,11-3…入力部、201…操作部、202…処理部、203…表示部、204…通信部、301…取得部、302…音声認識部、303…音質確認部、304…テキスト変換部、305…係り受け解析部、306…議事録作成部、307…通信部、309…操作部、310…処理部、311…表示部 REFERENCE SIGNS LIST 1 conference support system 10 input device 20, 20-1, 20-2 terminal 30 conference support device 40 acoustic model/dictionary DB 50 minutes/speech log storage unit 11, 11 -1, 11-2, 11-3... Input unit 201... Operation unit 202... Processing unit 203... Display unit 204... Communication unit 301... Acquisition unit 302... Voice recognition unit 303... Sound quality confirmation unit , 304 ... text conversion unit, 305 ... dependency analysis unit, 306 ... minutes creation unit, 307 ... communication unit, 309 ... operation unit, 310 ... processing unit, 311 ... display unit

Claims (5)

第1の参加者が使用する会議支援装置と、第2の参加者が使用する端末と、を有する会議支援システムであって、
前記会議支援装置は、
前記第1の参加者の発話情報を取得する取得部と、
少なくとも前記第1の参加者の発話情報を表示する表示部と、
前記第1の参加者の発話情報の音質を確認する音質確認部と、
確認された前記第1の参加者の発話情報の音質が所定値より悪い場合、前記表示部に表示させる確認された前記第1の参加者の発話情報を認識しにくくさせ、認識しにくくさせた後、所定時間が経過した後、認識しにくくさせる処理を終了する処理部と、
を備える会議支援システム。
A conference support system having a conference support device used by a first participant and a terminal used by a second participant,
The conference support device is
an acquisition unit that acquires the speech information of the first participant;
a display unit that displays at least the speech information of the first participant;
a sound quality confirmation unit for confirming the sound quality of the utterance information of the first participant;
When the sound quality of the confirmed utterance information of the first participant is worse than a predetermined value, the utterance information of the confirmed first participant displayed on the display unit is made difficult to recognize and made difficult to recognize. After that, after a predetermined time has elapsed, a processing unit that ends the process of making it difficult to recognize;
A meeting support system comprising:
前記取得部は、前記第1の参加者の発話を収音する収音部であり、
前記音質確認部は、収音された前記第1の参加者の発話情報に対して発話音量または発話速度が所定の範囲外の場合に、確認された前記第1の参加者の発話情報の音質が所定値より悪いと判定する、
請求項1に記載の会議支援システム。
The acquisition unit is a sound collection unit that collects the speech of the first participant,
The sound quality confirmation unit is configured to control the sound quality of the confirmed utterance information of the first participant when the utterance volume or the utterance speed of the collected utterance information of the first participant is outside a predetermined range. is determined to be worse than a predetermined value,
The conference support system according to claim 1.
前記処理部は、
前記第1の参加者の発話情報を前記端末へ送信し、
確認された前記第1の参加者の発話情報の音質が所定値より悪い場合、前記端末に表示させる確認された前記第1の参加者の発話情報を認識しにくくさせずに、確認された前記第1の参加者の発話情報を、前記第1の参加者の発話情報の音質が所定値より良い場合の表示とは異なるように表示させる、
請求項1または請求項2に記載の会議支援システム。
The processing unit is
transmitting the utterance information of the first participant to the terminal;
When the sound quality of the confirmed utterance information of the first participant is worse than a predetermined value, the confirmed utterance information of the first participant to be displayed on the terminal is not difficult to recognize. Displaying the speech information of the first participant in a manner different from the display when the sound quality of the speech information of the first participant is better than a predetermined value;
The conference support system according to claim 1 or 2.
第1の参加者が使用する会議支援装置と、第2の参加者が使用する端末と、を有する会議支援システムにおける会議支援方法であって、
前記会議支援装置の取得部が、前記第1の参加者の発話情報を取得し、
表示部が、少なくとも前記第1の参加者の発話情報を表示し、
音質確認部が、前記第1の参加者の発話情報の音質を確認し、
処理部が、確認された前記第1の参加者の発話情報の音質が所定値より悪い場合、前記表示部に表示させる確認された前記第1の参加者の発話情報を認識しにくくさせ、認識しにくくさせた後、所定時間が経過した後、認識しにくくさせる処理を終了する、
会議支援方法。
A conference support method in a conference support system having a conference support device used by a first participant and a terminal used by a second participant,
The acquisition unit of the conference support device acquires the speech information of the first participant,
The display unit displays at least the speech information of the first participant,
A sound quality confirmation unit confirms the sound quality of the speech information of the first participant,
If the sound quality of the confirmed utterance information of the first participant is worse than a predetermined value, the processing unit makes it difficult to recognize the confirmed utterance information of the first participant to be displayed on the display unit, and recognizes it. After making it difficult to recognize, after a predetermined time has passed, the process of making it difficult to recognize is terminated.
How to support meetings.
表示部を有する第1の参加者が使用する会議支援装置と、第2の参加者が使用する端末と、を有する会議支援システムにおける会議支援装置のコンピュータに、
前記第1の参加者の発話情報を取得し、
少なくとも前記第1の参加者の発話情報を表示し、
前記第1の参加者の発話情報の音質を確認し、
確認された前記第1の参加者の発話情報の音質が所定値より悪い場合、前記表示部に表示させる確認された前記第1の参加者の発話情報を認識しにくくさせ、
認識しにくくさせた後、所定時間が経過した後、認識しにくくさせる処理を終了させる、
プログラム。
In a computer of a conference support device in a conference support system having a conference support device used by a first participant having a display unit and a terminal used by a second participant,
Acquiring utterance information of the first participant;
displaying speech information of at least the first participant;
Checking the sound quality of the speech information of the first participant,
If the sound quality of the confirmed speech information of the first participant is worse than a predetermined value, making it difficult to recognize the confirmed speech information of the first participant to be displayed on the display unit,
After making it hard to recognize, after a predetermined time has passed, the process of making it difficult to recognize is terminated.
program.
JP2020060958A 2020-03-30 2020-03-30 CONFERENCE SUPPORT SYSTEM, CONFERENCE SUPPORT METHOD, AND PROGRAM Active JP7316971B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020060958A JP7316971B2 (en) 2020-03-30 2020-03-30 CONFERENCE SUPPORT SYSTEM, CONFERENCE SUPPORT METHOD, AND PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020060958A JP7316971B2 (en) 2020-03-30 2020-03-30 CONFERENCE SUPPORT SYSTEM, CONFERENCE SUPPORT METHOD, AND PROGRAM

Publications (2)

Publication Number Publication Date
JP2021162895A JP2021162895A (en) 2021-10-11
JP7316971B2 true JP7316971B2 (en) 2023-07-28

Family

ID=78003335

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020060958A Active JP7316971B2 (en) 2020-03-30 2020-03-30 CONFERENCE SUPPORT SYSTEM, CONFERENCE SUPPORT METHOD, AND PROGRAM

Country Status (1)

Country Link
JP (1) JP7316971B2 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006079684A (en) 2004-09-08 2006-03-23 Alpine Electronics Inc Playback device and playback method
JP2009302824A (en) 2008-06-12 2009-12-24 Yamaha Corp Voice communication system
WO2017061149A1 (en) 2015-10-08 2017-04-13 ソニー株式会社 Information processing device, information processing method and program
JP2018139397A (en) 2017-02-24 2018-09-06 沖電気工業株式会社 Voice display device and voice display program
JP2018186366A (en) 2017-04-25 2018-11-22 京セラドキュメントソリューションズ株式会社 Conference system
JP2019164232A (en) 2018-03-19 2019-09-26 株式会社リコー Sharing terminal, method and program, and sharing system and method
JP2019215449A (en) 2018-06-13 2019-12-19 日本電信電話株式会社 Conversation auxiliary apparatus, conversation auxiliary method, and program

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006079684A (en) 2004-09-08 2006-03-23 Alpine Electronics Inc Playback device and playback method
JP2009302824A (en) 2008-06-12 2009-12-24 Yamaha Corp Voice communication system
WO2017061149A1 (en) 2015-10-08 2017-04-13 ソニー株式会社 Information processing device, information processing method and program
JP2018139397A (en) 2017-02-24 2018-09-06 沖電気工業株式会社 Voice display device and voice display program
JP2018186366A (en) 2017-04-25 2018-11-22 京セラドキュメントソリューションズ株式会社 Conference system
JP2019164232A (en) 2018-03-19 2019-09-26 株式会社リコー Sharing terminal, method and program, and sharing system and method
JP2019215449A (en) 2018-06-13 2019-12-19 日本電信電話株式会社 Conversation auxiliary apparatus, conversation auxiliary method, and program

Also Published As

Publication number Publication date
JP2021162895A (en) 2021-10-11

Similar Documents

Publication Publication Date Title
US7676372B1 (en) Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech
US10741172B2 (en) Conference system, conference system control method, and program
JP6084654B2 (en) Speech recognition apparatus, speech recognition system, terminal used in the speech recognition system, and method for generating a speaker identification model
US11528568B1 (en) Assisted hearing aid with synthetic substitution
JPH096390A (en) Voice recognition interactive processing method and processor therefor
US20180286388A1 (en) Conference support system, conference support method, program for conference support device, and program for terminal
JP6585733B2 (en) Information processing device
US20180288109A1 (en) Conference support system, conference support method, program for conference support apparatus, and program for terminal
US20180288110A1 (en) Conference support system, conference support method, program for conference support device, and program for terminal
US20220231873A1 (en) System for facilitating comprehensive multilingual virtual or real-time meeting with real-time translation
JP6729923B1 (en) Deafness determination device, deafness determination system, computer program, and cognitive function level correction method
WO2021153101A1 (en) Information processing device, information processing method, and information processing program
JP7316971B2 (en) CONFERENCE SUPPORT SYSTEM, CONFERENCE SUPPORT METHOD, AND PROGRAM
WO2017029850A1 (en) Information processing device, information processing method, and program
JP2014149571A (en) Content search device
JP7384730B2 (en) Conference support system, conference support method, and program
KR102000282B1 (en) Conversation support device for performing auditory function assistance
JP6962849B2 (en) Conference support device, conference support control method and program
JP7471979B2 (en) Meeting Support System
CN115240689B (en) Target sound determination method, target sound determination device, computer equipment and medium
US11657814B2 (en) Techniques for dynamic auditory phrase completion
JP7070402B2 (en) Information processing equipment
JP7293863B2 (en) Speech processing device, speech processing method and program
US20220246168A1 (en) Techniques for detecting and processing domain-specific terminology
JP2023148706A (en) Speech recognition result display system, speech recognition result display device, and speech recognition result display method and non-transitory storage medium storing program

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20220601

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221011

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230718

R150 Certificate of patent or registration of utility model

Ref document number: 7316971

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150