JP2019138988A - Information processing system, method for processing information, and program - Google Patents
Information processing system, method for processing information, and program Download PDFInfo
- Publication number
- JP2019138988A JP2019138988A JP2018020599A JP2018020599A JP2019138988A JP 2019138988 A JP2019138988 A JP 2019138988A JP 2018020599 A JP2018020599 A JP 2018020599A JP 2018020599 A JP2018020599 A JP 2018020599A JP 2019138988 A JP2019138988 A JP 2019138988A
- Authority
- JP
- Japan
- Prior art keywords
- text
- conference
- cpu
- instruction
- command
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、人の発話を音声認識してテキスト化する情報処理システムに関するものであり、特に、会議におけるユーザの発話内容から議事録を生成する議事録生成システムに関するものである。 The present invention relates to an information processing system that recognizes a person's utterance and converts it into text, and particularly relates to a minutes generation system that generates minutes from the contents of a user's utterance in a meeting.
従来、人の発話を音声認識してテキスト化するディクテーション技術がある。特許文献1には、人の発話を音声認識してテキスト化し、要約することで、議事録を生成するシステムが開示されている。特許文献1の技術によれば、人の発話から取得したテキスト(以下、「発話テキスト」と言う)を要約して議事録を作成することができる。
Conventionally, there is a dictation technique for recognizing a person's utterance and converting it into text.
また、人がシステムに実行してもらいたい処理をコマンド形式で発話することによって、コマンドに応じた処理をシステムで実行できる音声操作技術がある。この一例として、システムの設定(出力音量等)を変更する音声操作がある。しかし、音声操作のためにコマンドを発話すると、音声認識によって、発話テキストにコマンドに相当するテキストが含まれてしまう。そのため特許文献2では、音声入力ワープロシステムにおいて、音声認識してテキスト化した結果から、コマンドに相当するテキストを不要なテキストとして削除する技術が開示されている。これにより、文書とは関係のないコマンドが文書内に残らないようにすることができる。 In addition, there is a voice operation technique that allows a system to execute a process according to a command by speaking a process that a person wants the system to execute in a command format. As an example of this, there is a voice operation for changing system settings (such as output volume). However, when a command is uttered for voice operation, the text corresponding to the command is included in the utterance text due to voice recognition. For this reason, Patent Document 2 discloses a technique for deleting a text corresponding to a command as an unnecessary text from a result of voice recognition and text conversion in a voice input word processor system. Thereby, it is possible to prevent commands not related to the document from remaining in the document.
しかしながら、コマンド内にも削除すべきでないテキストが含まれる場合がある。例えば、特許文献1のようなシステムにおいて、会議の場で参加者に対して行う作業の依頼(以下、「アクションアイテム」と言う)や、会議において決定した事項(以下、「決定事項」と言う」)を、音声コマンドで登録できるような機能を想定したとする。このとき、従来技術のように発話テキスト内に含まれるコマンドを不要なテキストとして削除すると、コマンドに含まれるアクションアイテムや決定事項といったテキストが発話テキストから削除される。そのため、発話テキストから生成した議事録に、音声コマンドを用いて登録した、アクションアイテムや決定事項などの、会議の主要な内容が残らないという課題があった。
However, there may be text that should not be deleted in the command. For example, in a system such as
本発明は、発話された音声データを音声認識してテキストにする音声認識手段と、前記テキストのうち、情報処理装置に対する命令の開始を示す部分である、ヘッダ部を検出する第1の検出手段と、前記テキストのうち、前記情報処理装置に対する前記命令の種類を示す部分である、命令部を検出する第2の検出手段と、前記テキストのうち、前記情報処理装置に対する前記命令の内容を示す部分である、データ部を検出する第3の検出手段と、前記音声データのうち、前記テキストから削除する削除範囲を前記命令部に応じて決定する決定手段と、を有することを特徴とする情報処理装置である。 The present invention provides speech recognition means for recognizing spoken speech data to text, and first detection means for detecting a header portion of the text that indicates a start of an instruction to an information processing apparatus. And a second detection means for detecting an instruction part, which is a part indicating the type of the instruction for the information processing device in the text, and a content of the instruction for the information processing device in the text. Information including: a third detection unit that detects a data portion that is a portion; and a determination unit that determines a deletion range to be deleted from the text in the voice data according to the command unit. It is a processing device.
会議における発話内容を音声認識して議事録を作成する際に、発話された音声コマンドのうち、議事録に残す必要のあるコマンドは、削除せずに、残すことができる。 When creating a minutes by recognizing speech content at a conference, commands that need to be left in the minutes can be left without being deleted.
以下、本発明の実施例について図面を用いて説明する。
図1は、情報処理システムとしての会議システムの構成を示す図である。
会議システム100は、会議装置101と会議サーバ102より構成される。会議装置101と会議サーバ102はネットワーク103を介して接続されている。
Embodiments of the present invention will be described below with reference to the drawings.
FIG. 1 is a diagram illustrating a configuration of a conference system as an information processing system.
The
会議装置101は、音声認識装置としての情報処理装置の一例であり、例えば一般的なPC(Personal Computer)である。
会議装置101は、例えば会議テーブル上のように、会議室などの会議開催場所に配置される。会議装置101は、会議中に発生する音声や画像など複数の種類のデータ(以下、「会議情報」と言う)を記録する。そして、会議装置101は、会議情報を会議サーバ102に送信する。
なお、図1において、会議システム100は、会議装置101と会議サーバ102を一台ずつ備えているが、会議装置101や会議サーバ102を、それぞれ、複数台備えるように構成してもよい。
また、図1では、会議装置101と会議サーバ102とを別離した装置として記載しているが、両装置の機能を備えた単一の装置として構成されてもよい。
The
The
In FIG. 1, the
In FIG. 1, the
会議装置101は、例えばオフィスや所定の会場等において開催される会議を記録することを想定している。しかし、本発明が適用対象とする会議は、オフィスや所定の会場等において開催される狭義の会議には限定されず、複数の人物の視認/発声行動を伴うような集まりであればよい。例えば、面接や、取り調べ等も、本発明の適用対象となる会議に相当する。
For example, the
会議サーバ102は、一般的なPCやクラウドサーバである。会議サーバ102は、会議装置101から会議情報を受信し、会議情報に含まれる音声データを音声認識してテキストを生成する。また、会議情報に含まれる画像データを文字認識してテキストを生成する。そして、これらテキストを含む情報を解析・加工して、議事録を生成し、作成した議事録を配信する。
The
図2は、図1の会議装置101および会議サーバ102のハードウェア構成例を示すブロック図である。
図2(a)で、会議装置101は、CPU201、ROM202、RAM204、ストレージ205、入力デバイス206、表示デバイス207、外部インターフェース208、カメラデバイス209、マイクデバイス210、スピーカデバイス211を備える。これら各デバイスは、データバス203を介して相互にデータを送受信することができる。なお、CPUは、Central Processing Unit の略称である。RAMは、Random Access Memory の略称である。ROMは、Read Only Memory の略称である。
FIG. 2 is a block diagram illustrating a hardware configuration example of the
2A, the
CPU201は、会議装置全体を制御するためのコントローラである。CPU201は、不揮発メモリであるROM202に格納されているブートプログラムによりOS(Operating System)を起動する。CPU201は、OSの上で、ストレージ205に記録されているコントローラプログラムを実行する。コントローラプログラムは、会議装置全体を制御するプログラムである。CPU201は、データバス203などのバスを介して各デバイスを制御する。
RAM204は、CPU201のメインメモリやワークエリア等の一時記憶領域として動作するものである。ストレージ205は、読み出しと書き込みが可能な、記録手段としての不揮発メモリであり、前述のコントローラプログラムを保存する。また、会議装置101は、会議情報を会議サーバ102へ送信するまでの間、ストレージ205に会議情報を記録する。
The
The
入力デバイス206は、タッチパネルやハードキー、マウスなどから構成される入力装置である。また、表示デバイス207は、LCDなどの表示装置である。入力デバイス206は、ユーザから操作の指示を受け付けると、指示をCPU201に伝達する。
表示デバイス207は、CPU201が生成した表示画像データを画面上に表示する。CPU201は、入力デバイス206から受信した指示情報と、表示デバイス207に表示させている表示画像データとに基づいて、操作を判定する。CPU201は、判定結果に応じて、会議装置101を制御するとともに、操作内容に応じて新たな表示画像データを生成し、表示デバイス207に表示させる。
The
The
外部インターフェース208は、LANや電話回線、赤外線といった近接無線などのネットワークを介して、別体の外部機器と各種データの送信あるいは受信を行う。
カメラデバイス209は、動画や画像を撮影することができる手段である。具体的には、いわゆるデジタルカメラなどがその一例である。
マイクデバイス210は、入力された音声をデジタル信号化する手段である。例えば、ユーザが発話した音声を、WAVE形式などの音声データとして取得する。
スピーカデバイス211は、外部に音を出力することができる装置である。
The
The
The
The
図2(b)で、会議サーバ102は、CPU251、ROM252、RAM254、ストレージ255、入力デバイス256、表示デバイス257、外部インターフェース258を備える。各デバイスは、データバス253を介して相互にデータを送受信することができる。
2B, the
CPU251は、この会議サーバ全体を制御するためのコントローラである。CPU251は、不揮発メモリであるROM252に格納されているブートプログラムによりOSを起動する。CPU251は、OSの上で、ストレージ255に記憶されている会議サーバプログラムを実行することより、会議サーバ102の各処理を実現する。CPU251は、データバス253などのバスを介して各部を制御する。
RAM254は、CPU251のメインメモリやワークエリア等の一時記憶領域として動作する。ストレージ255は、読み出しと書き込みが可能な不揮発メモリであり、前述の会議サーバプログラムを保存する。
The
The
入力デバイス256および表示デバイス257は、図2(a)で説明した入力デバイス206および表示デバイス207と同様である。
外部インターフェース258は、図2(a)で説明した外部インターフェース208と同様である。
The
The
次に、会議システム100が提示し、ユーザが参照・操作するユーザインターフェースについて説明する。
図3は、会議装置101の表示デバイス207の表示例を示す。
Next, a user interface presented by the
FIG. 3 shows a display example of the
図3(a)に示す画面300は、会議開始前に表示される画面である。
「開始」ボタン301は、ユーザが会議装置101に会議の開始を指示するためのものである。CPU201は、入力デバイス206を介して「開始」ボタン301への指示を受け付けると、図3(b)に示す画面310を表示デバイス207に表示させる。そして、CPU201は、会議情報の記録を開始する。
A
A “start”
図3(b)に示す画面310は、会議中に表示する画面である。
「撮影」ボタン311は、ユーザが会議装置101に撮影を要求する指示をするためのものである。CPU201は、入力デバイス206を介して「撮影」ボタン311への指示を受け付けると、図3(c)に示す画面320を表示デバイス207に表示させる。
A
The “shoot”
「アジェンダ」ボタン312は、ユーザが会議装置101にアジェンダを変更(開始や終了)する指示をするためのものである。CPU201は、入力デバイス206を介して「アジェンダ」ボタン312への指示を受け付けると、図3(d)に示す画面330を表示デバイス207に表示させる。
The “Agenda”
「音量」ボタン313は、ユーザが会議装置101に音量の変更を要求する指示をするためのものである。CPU201は、入力デバイス206を介して「音量」ボタン313への指示を受け付けると、図3(e)に示す画面340を表示デバイス207に表示させる。
A “volume”
「終了」ボタン314は、ユーザが会議装置101に会議を終了する指示をするためのものである。CPU201は、入力デバイス206を介して「終了」ボタン314への指示を受け付けると、図3(f)に示す画面350を表示デバイス207に表示させる。
The “end”
図3(c)に示す画面320は、撮影をする際に表示される画面である。図示のようにカメラデバイス209により得られる被写体の映像が表示される。ユーザは、映像を見ながら、文字が記入されたホワイトボードや紙が、会議装置101の撮影画角に収まるよう調整することができる。
A
CPU201は、入力デバイス206を介して画面320の任意箇所への指示を受け付けると、カメラデバイス209により被写体を撮影して画像データを取得する。
「OK」ボタン321は、ユーザが会議装置101に撮影の終了を指示するためのものである。CPU201は、入力デバイス206を介して「OK」ボタン321への指示を受け付けると、図3(b)に示す画面310を表示デバイス207に表示させる。
When the
The “OK”
図3(d)に示す画面330は、アジェンダの変更を指示する際に表示する画面である。
テキストフィールド331は、ユーザが会議装置101にアジェンダ名を登録するためのものである。ユーザは入力デバイス206を介して、テキストフィールド331に所望のアジェンダ名を入力することができる。
「開始」ボタン332は、ユーザが会議装置101に新しいアジェンダの開始を指示するためのものである。
「終了」ボタン333は、ユーザが会議装置101に現在のアジェンダの終了を指示するためのものである。なお、終了したアジェンダの名称はテキストエリア334にリスト表示される。
「OK」ボタン335は、ユーザが会議装置101にアジェンダ変更の終了を指示するためのものである。CPU201は、入力デバイス206を介して「OK」ボタン335への指示を受け付けると、図3(b)に示す画面310を表示デバイス207に表示させる。
A
The
The “start”
The “end”
The “OK”
図3(e)に示す画面340は、音量の変更を指示する際に表示する画面である。
図示のように、ユーザはスライドバー341を操作して会議装置101の出力音量を調整することができる。「OK」ボタン342は、ユーザが会議装置101に、音量変更の終了を指示するためのものである。CPU201は、入力デバイス206を介して「OK」ボタン342への指示を受け付けると、図3(b)に示す画面310を表示デバイス207に表示させる。
A screen 340 shown in FIG. 3E is a screen displayed when an instruction to change the volume is given.
As illustrated, the user can adjust the output volume of the
図3(f)に示す画面350は、会議を終了する際に表示する画面である。
テキストフィールド351は、ユーザが会議装置101に、会議システム100が作成する議事録の送信先を指示するためのものである。ユーザは入力デバイス206を介して、テキストフィールド351に、所望の送信先を入力することができる。送信先としては、例えば、メールアドレスを入力することができる。
A
The
「OK」ボタン352は、ユーザが会議装置101に会議終了の確定を指示するためのものである。CPU201は、入力デバイス206を介して「OK」ボタン352への指示を受け付けると、図3(a)に示す画面300を表示デバイス207に表示させる。
そして、会議装置101は、会議情報の記録を終了し、会議情報を会議サーバ102へ送信する。その後、会議サーバ102は、受信した会議情報を解析・加工して議事録を生成し、送信先に送信する。
The “OK”
Then, the
次に、会議装置101によって記録される会議情報について説明する。
図4は、会議装置101がストレージ205に記録する会議情報の構成例を示すものである。
Next, conference information recorded by the
FIG. 4 shows a configuration example of conference information recorded in the
図4(a)に示す音声情報テーブル400は、会議装置101が録音して取得する音声に関する情報(以下、「音声情報」と言う)を記録するデータテーブルである。会議装置101は、会議中の会話を録音し、音声データを記録する。
録音開始時刻列401には、録音開始時刻(会議開始時刻)を記録する。録音終了時刻列402には、録音終了時刻(会議終了時刻)を記録する。音声データ列403には、ストレージ205に記録された音声データのファイル名を記録する。
The audio information table 400 shown in FIG. 4A is a data table that records information about audio acquired by the conference apparatus 101 (hereinafter referred to as “audio information”). The
In the recording
図4(b)に示す画像情報テーブル410は、会議装置101が撮影して取得する画像に関する情報(以下、「画像情報」と言う)を記録するデータテーブルである。会議装置101は、被写体を撮影して画像データを取得し、ファイルとしてストレージ205に記録する。
撮影時刻列411には、撮影時刻を記録する。画像データ列412には、ストレージ205に記録した画像データのファイル名を記録する。
An image information table 410 illustrated in FIG. 4B is a data table that records information (hereinafter referred to as “image information”) related to an image captured and acquired by the
The
図4(c)に示すアジェンダ情報テーブル420は、会議装置101が記録するアジェンダに関する情報(以下、「アジェンダ情報」と言う)を記録するデータテーブルである。
アジェンダ開始時刻列421には、アジェンダの開始時刻を記録する。アジェンダ終了時刻列422には、アジェンダの終了時刻を記録する。アジェンダ名列423には、アジェンダ名を記録する。
The agenda information table 420 shown in FIG. 4C is a data table that records information on the agenda recorded by the conference apparatus 101 (hereinafter referred to as “agenda information”).
The agenda start
次に、会議装置101の会議情報を記録するための処理について説明する。
図5は、会議情報を記録するための処理を示すフローチャートである。
会議装置101の電源キー(不図示)を操作して電源をONにすると、CPU201は、ストレージ205に記録されているコントローラプログラムを読み込む。そして、コントローラプログラムをRAM204に展開して実行する。これにより、会議装置101は会議情報記録処理を実行することが可能となる。また、CPU201は、画面300の表示画像データを生成して、表示デバイス207に表示させる。
Next, a process for recording the conference information of the
FIG. 5 is a flowchart showing a process for recording conference information.
When the power is turned on by operating a power key (not shown) of the
まず、S501において、CPU201は、会議を開始する指示がなされたか否かを判定する。
「開始」ボタン301への指示がなされていたら、YESと判定し、S502に遷移する。このとき、CPU201は、画面310の表示画像データを生成して、表示デバイス207に表示させる。「開始」ボタン301への指示がなされていなければ、NOと判定し、S522に遷移する。
First, in step S501, the
If an instruction is given to the “start”
S502において、CPU201は、マイクデバイス210により、会話の録音を開始する。これにより、CPU201は音声データを取得する。そして、CPU201は、音声情報テーブル400の録音開始時刻列401に、録音開始時刻として現在の時刻を記録する。
また、CPU201は、音声データを、ファイルとしてストレージ205に記録し始める。CPU201は、音声データのファイル名を、音声情報テーブル400の音声データ列403に記録する。なお、録音開始時刻は会議開始時刻に相当する。
In step S <b> 502, the
In addition, the
S503において、CPU201は、音声コマンドを検出するために、音声コマンド処理を実行する。
本実施例の音声コマンドはヘッダ部、命令部、データ部の3つの部分で構成される。
1つ目のヘッダ部は、会議装置101に対して音声コマンドの発話が開始されることを示すための部分である。
具体的に言うと、ヘッダ部は、「Hey」のような、音声コマンドの開始を示す発話である。ヘッダ部として用いる発話の文言は、予め会議装置101におけるストレージ205に登録しておく。
In step S503, the
The voice command of this embodiment is composed of three parts: a header part, a command part, and a data part.
The first header portion is a portion for indicating that the speech command is started to the
Specifically, the header part is an utterance indicating the start of a voice command such as “Hey”. The utterance word used as the header part is registered in the
2つ目の命令部は、会議装置101に実行させる命令の種類を表す部分である。
命令部としては、図11の命令部の文字列1101に示すような発話が用いられる。
具体的な命令の種類としては、AIへ登録するための「AI」、会議における決定事項を登録するための「決定事項」、などがある。さらに、決定事項を削除するための「決定事項削除」、アジェンダを開始するための「アジェンダ開始」、撮影を指示するための「撮影」、音量を変更するための「音量」、などもある。
命令部として用いられる文言は、図11のような命令部データテーブル1100で予め登録しておく。命令部データテーブル1100は、会議装置101のストレージ205及び会議サーバ102のストレージ255で保持される。
命令部の文字列1101は、ユーザが会議装置101に対して発話する命令部の文字列を表す列である。命令内容列1102は、会議装置101が実行する命令の指示内容を表す列である。データ部有無列1103は、命令がデータ部を有するか否かを表す列である。データ部を有する場合は「有」、データ部を持たない場合は「無」で管理される。削除範囲列1104は、音声コマンドを構成する部分のうち、発話テキストから削除する範囲を表す列である。
The second command part is a part representing the type of command to be executed by the
As the command part, an utterance as shown in the
Specific types of commands include “AI” for registering with the AI, “decision items” for registering the decision items in the conference, and the like. Further, there are “determination deletion” for deleting a determination item, “start agenda” for starting an agenda, “shooting” for instructing shooting, “volume” for changing the volume, and the like.
The wording used as the command part is registered in advance in the command part data table 1100 as shown in FIG. The command part data table 1100 is held in the
The
3つ目のデータ部は、会議装置101に実行させる命令の内容を表す部分である。
データ部としては、例えば、ユーザが会議における決定事項を登録する場合の「案2で進める」、音量を変更する場合の「10上げる」などの発話が、これに相当する。
命令部が決定事項を削除するための「決定事項削除」である場合など、データ部を含まない音声コマンドも存在する。
なお、データ部は、内容の性質上、予め登録されているものではない。
The third data part is a part representing the content of a command to be executed by the
As the data portion, for example, utterances such as “Proceed with plan 2” when the user registers a decision item in the conference and “Raise 10” when changing the volume correspond to this.
There is also a voice command that does not include a data part, such as when the command part is “deletion of decision item” for deleting a decision item.
The data part is not registered in advance due to the nature of the contents.
例えば、ユーザは、決定事項を登録したい場合、「Hey、決定事項、案2で進める。」のように、ヘッダ部(Hey)、命令部(決定事項)、データ部(案2で進める)の順に発話する。
また、アジェンダの開始を会議装置101に対して指示したい場合は、「Hey、アジェンダ開始、来年度予算について。」のように、ヘッダ部(Hey)、命令部(アジェンダ開始)、データ部(来年度予算について)の順に発話する。
同様に、撮影を指示する場合は、「Hey(ヘッダ部)、撮影(命令部)。」のように、音量の変更を指示する場合は、「Hey(ヘッダ部)、音量(命令部)、10上げる(データ部)。」のように、発話する。
なお、ここで示した発話する音声コマンドの文言や構成は一例であり、本実施例に記載の処理が実行できれば、どのような文言や構成であってもよい。
音声コマンド処理の具体的なフローについては、図12に示す。
For example, when the user wants to register a decision item, the header part (Hey), the command part (decision item), and the data part (progress in the plan 2) are read as “Hey, decision item, proceed with plan 2”. Speak in order.
When it is desired to instruct the
Similarly, when instructing photographing, “Hey (header part), photographing (command part).” When instructing change of the sound volume, “Hey (header part), sound volume (command part), Speak like "Raise 10 (data part)."
Note that the wording and configuration of the voice command to be uttered here are merely examples, and any wording or configuration may be used as long as the processing described in this embodiment can be executed.
A specific flow of voice command processing is shown in FIG.
図12は、会議装置101における音声コマンドの処理を示すフローチャートである。
まず、S1201において、CPU201は、音声データを取得して音声認識を実行し、認識結果テキストに追記する。
ここで、音声データは、ユーザの発話区間単位で取得する。発話区間とは、ある無音区間と次の無音区間の間の区間である。無音区間の検出は、例えば、音声データの音圧が閾値以下の状態が一定時間継続されたことに基づいて検出する。S1201で音声認識した結果のテキストは、順次認識結果テキストに追記する。
FIG. 12 is a flowchart showing voice command processing in the
First, in step S1201, the
Here, the voice data is acquired in units of user utterance sections. The utterance section is a section between a certain silent section and the next silent section. The silent section is detected based on, for example, that a state in which the sound pressure of the audio data is equal to or lower than a threshold value is continued for a certain period of time. The text resulting from the speech recognition in S1201 is sequentially added to the recognition result text.
S1202において、CPU201は、認識結果テキストに新たに追記されたテキストの内、音声コマンドのヘッダ部に相当するテキストが含まれているか否かを判定する。
具体的には、会議装置101におけるストレージ205に予め保持されたヘッダ部の文言と一致するテキストが含まれているか否かに基づいて判定する。
含まれている場合、YESと判定し、S1203に遷移する。含まれていない場合、NOと判定し、処理を終了する。
In step S <b> 1202, the
Specifically, the determination is made based on whether or not the
When it is included, it determines with YES and changes to S1203. When it is not included, it determines with NO and complete | finishes a process.
S1203において、CPU201は、ヘッダ部に続くテキストに音声コマンドの命令部に相当するテキストが含まれているか否かを判定する。
具体的には、会議装置101のストレージ205に保持された命令部データテーブル1100の命令部の文字列1101と一致するテキストが、ヘッダ部に続くテキストに含まれているか否かに基づいて判定する。
含まれている場合、YESと判定し、S1204に遷移する。含まれていない場合、NOと判定し、処理を終了する。
In step S1203, the
Specifically, the determination is made based on whether or not the text that matches the
If it is included, it is determined as YES, and the process proceeds to S1204. When it is not included, it determines with NO and complete | finishes a process.
S1204において、CPU201は、S1203で検出した音声コマンドの命令がデータ部を有するか否かを判定する。判定では、S1203で検出したテキストと命令部の文字列1101とが一致するレコードを特定する。そして、特定されたレコードのデータ部有無列1103を参照し「有」の場合、YESと判定し、S1205に遷移する。「無」の場合は、NOと判定し、S1206に遷移する。
In step S1204, the
S1205において、CPU201は、命令部に続くテキストに音声コマンドのデータ部に相当するテキストが含まれているか否かを判定する。具体的には、命令部に相当するテキストから発話区間の終了(句読点)までに、テキストが含まれているか否かに基づいて判定する。
含まれている場合、YESと判定し、S1206に遷移する。含まれていない場合、NOと判定し、処理を終了する。
In step S <b> 1205, the
If it is included, the determination is YES, and the process proceeds to S1206. When it is not included, it determines with NO and complete | finishes a process.
S1206において、CPU201は、命令部データテーブル1100を参照し、検出したコマンドの命令内容を特定する。命令部データテーブル1100の命令部の文字列1101のうち、S1203で判定した際の、ヘッダ部に続くテキストと一致するレコードを特定し、特定されたレコードの命令内容列1101を参照して命令内容を特定する。
In step S <b> 1206, the
図12のフローチャートに示す音声コマンド処理が終了すると、図5の会議情報の記録処理に戻る。
そして、S504において、CPU201は、撮影を要求する指示がなされたか否かを判定する。
画面310で「撮影」ボタン311への指示がなされていた場合、もしくは、S503において特定した音声コマンドの命令内容が撮影要求指示であった場合、YESと判定し、S505に遷移する。このとき、CPU201は、画面320の表示画像データを生成して、表示デバイス207に表示させる。
「撮影」ボタン311への指示がなされていなければ、NOと判定し、S508に遷移する。
When the voice command process shown in the flowchart of FIG. 12 ends, the process returns to the meeting information recording process of FIG.
In step S504, the
If the “shoot”
If no instruction is given to the “shoot”
S505において、CPU201は、撮影の指示がなされたか否かを判定する。
画面320で任意の箇所への指示がなされていた場合、もしくは、S503において特定した音声コマンドの命令内容が撮影要求指示であった場合、YESと判定し、S506に遷移する。
画面320で任意の箇所への指示がなされていなければ、NOと判定し、S507に遷移する。
In step S <b> 505, the
If an instruction is given to an arbitrary location on the
If no instruction is given to an arbitrary location on the
S506において、CPU201は、カメラデバイス209により被写体を撮影して画像データを取得する。また、CPU201は、画像情報テーブル410にレコードを追加して、撮影時刻列411に現在の時刻を記録する。また、CPU201は、画像データをファイルとしてストレージ205に記録する。CPU201は、当該画像データのファイル名を、画像情報テーブル410の画像データ列412に記録する。
In step S <b> 506, the
S507において、CPU201は、撮影を終了する指示がなされたか否かを判定する。
画面320で「OK」ボタン321への指示がなされていたら、YESと判定し、S504に遷移する。このとき、CPU201は、画面310の表示画像データを生成して、表示デバイス207に表示させる。
「OK」ボタン321への指示がなされていなければ、NOと判定し、S505に遷移する。
In step S <b> 507, the
If an instruction to the “OK”
If no instruction is given to the “OK”
S508において、CPU201は、アジェンダを変更する指示がなされたか否かを判定する。
画面310で「アジェンダ」ボタン312への指示がなされていた場合、もしくは、S503において特定した音声コマンドの命令内容がアジェンダの開始指示又は終了指示であった場合、YESと判定し、S509に遷移する。このとき、CPU201は、画面330の表示画像データを生成して、表示デバイス207に表示させる。
「アジェンダ」ボタン312への指示がなされていなければ、NOと判定し、S514に遷移する。
In step S508, the
If an instruction is given to the “Agenda”
If no instruction is given to the “Agenda”
S509において、CPU201は、アジェンダを開始する指示がなされたか否かを判定する。
画面330で「開始」ボタン332への指示がなされていた場合、もしくは、S503において特定した音声コマンドの命令内容がアジェンダ開始指示であった場合、YESと判定し、S510に遷移する。
「開始」ボタン332への指示がなされていなければ、NOと判定し、S511に遷移する。
In step S509, the
If an instruction is given to the “start”
If no instruction is given to the “start”
S510において、CPU201は、新しいアジェンダを開始する。CPU201は、アジェンダ情報テーブル420にレコードを追加して、アジェンダ開始時刻列421に現在の時刻を記録する。また、S503において特定した音声コマンドの命令内容がアジェンダ開始指示であった場合、音声コマンドの認識結果として受信したアジェンダ名をアジェンダ名列423に記録する。
In S510, the
S511において、CPU201は、アジェンダを終了する指示がなされたか否かを判定する。
画面330で「終了」ボタン333への指示がなされていた場合、もしくは、S503において特定した音声コマンドの命令内容がアジェンダ終了指示であった場合、YESと判定し、S512に遷移する。
「終了」ボタン333への指示がなされていなければ、NOと判定し、S513に遷移する。
In step S511, the
If an instruction to the “end”
If no instruction is given to the “end”
S512において、CPU201は、現在のアジェンダを終了する。CPU201は、アジェンダ情報テーブル420のアジェンダ終了時刻列422に現在の時刻を記録する。また、テキストフィールド331に入力されたアジェンダ名をアジェンダ名列423に記録する。
In S512, the
S513において、CPU201は、アジェンダ変更を終了する指示がなされたか否を判定する。
画面330で「OK」ボタン335への指示がなされていれば、YESと判定し、S504に遷移する。このとき、CPU201は、画面310の表示画像データを生成して、表示デバイス207に表示させる。
「OK」ボタン335への指示がなされていなければ、NOと判定し、S509に遷移する。
In step S513, the
If an instruction to the “OK”
If no instruction is given to the “OK”
S514において、CPU201は、音量を変更する指示がなされたか否かを判定する。
画面310で「音量」ボタン311への指示がなされていた場合、もしくは、S503において特定した音声コマンドの命令内容が音量変更指示であった場合、YESと判定し、S515に遷移する。
指示がなされていなければNOと判定し、S518に遷移する。
In step S514, the
If an instruction is given to the “volume”
If no instruction is given, NO is determined, and the flow proceeds to S518.
S515において、CPU201は、現在の音量を表示する。具体的には、会議装置101のストレージ205に保持された現在の音量を画面330でスライドバー341として表示する。
In step S515, the
S516において、CPU201は、音量変更を終了する指示がなされたか否を判定する。
画面340で「OK」ボタン342への指示、もしくはS503において受信した音声コマンドの命令内容が音量変更指示であった場合、YESと判定し、S517に遷移する。
指示がなされていなければ、NOと判定し、再度S516の処理を行う。
In step S516, the
If the instruction to the “OK”
If no instruction is given, NO is determined and the process of S516 is performed again.
S517において、CPU201は、設定された音量を保存する。具体的には、スライドバー341で設定された音量、もしくは音声コマンドで指示された音量をストレージ205に保存する。
In step S517, the
S518において、CPU201は、会議を終了する指示がなされたか否かを判定する。
画面310で「終了」ボタン313への指示がなされていれば、YESと判定し、S519に遷移する。このとき、CPU201は、画面340の表示画像データを生成して、表示デバイス207に表示させる。
「終了」ボタン313への指示がなされていなければ、NOと判定し、S504に遷移する。
In step S518, the
If an instruction to the “Finish”
If no instruction is given to the “end”
S519において、CPU201は、マイクデバイス210による会議の録音を終了する。CPU201は、音声情報テーブル400の録音終了時刻列402に現在の時刻を記録する。なお、このとき、アジェンダ情報テーブル420に、アジェンダ終了時刻列422に終了時刻が記録されていないレコードがあれば、アジェンダ終了時刻として現在の時刻をアジェンダ終了時刻列422に記録する。
In step S519, the
S520において、CPU201は、会議の終了を確定する指示がなされたか否かを判定する。
画面340でテキストフィールド341に送信先が入力され、かつ「OK」ボタン342への指示がなされていれば、YESと判定し、S521に遷移する。
テキストフィールド341に送信先が入力されていない、あるいは、「OK」ボタン342への指示がなされていなければ、NOと判定し、再度S520の処理を行う。なお、テキストフィールド341に入力された送信先は、会議情報の一部として記録する。
In step S520, the
If the transmission destination is input to the
If the transmission destination is not input in the
S521において、CPU201は、以上の処理によりストレージ205に記録した会議情報を、外部インターフェース208を介して、会議サーバ102に送信する。なお、送信後は、会議情報をストレージ205から削除してもよい。また、CPU201は、画面300の表示画像データを生成して、表示デバイス207に表示させる。
In step S <b> 521, the
S522において、CPU201は、電源をオフする指示がなされたか否かを判定する。
会議装置101の電源キー(不図示)への指示がなされていれば、YESと判定し、処理を終了する。会議装置101の電源キーへの指示がなされていなければ、NOと判定し、S501に遷移する。
In step S522, the
If an instruction is given to the power key (not shown) of the
次に、図6と図7を用いて、会議サーバ102が会議装置101から受信した会議情報を解析・加工して生成する議事録元情報について説明する。図6と図7は、会議サーバ102がストレージ255に記録する議事録元情報の構成例を示すものである。
Next, the minutes source information generated by analyzing and processing the conference information received from the
図6(a)に示す発話情報テーブル600は、会議情報に含まれる音声データを音声認識した結果に関する情報(以下、「発話情報」と言う)を記録するデータテーブルである。発話情報テーブル600は、音声データが解析されてユーザの発話が特定されると、発話毎に生成される。
発話時刻列601は、発話が発生した時刻(以下、「発話時刻」と言う)を記録するものである。発話テキスト列602は、発話を音声認識して取得した発話テキストを記録するものである。発話や発話時刻の特定については後述する。
The utterance information table 600 shown in FIG. 6A is a data table that records information (hereinafter referred to as “utterance information”) related to the result of voice recognition of voice data included in the conference information. The utterance information table 600 is generated for each utterance when voice data is analyzed and a user's utterance is specified.
The
図6(b)に示す記入情報テーブル610は、会議情報に含まれる画像データを文字認識した結果に関する情報(以下、「記入情報」と言う)を記録するデータテーブルである。記入情報テーブル610は、画像データが解析されてユーザによる記入が特定されると、記入毎に生成される。
記入時刻列611は、記入が発生した時刻(以下、「記入時刻」と言う)を記録するものである。記入テキスト列612は、画像データを文字認識して取得した記入テキストを記録するものである。記入や記入時刻の特定については後述する。
The entry information table 610 shown in FIG. 6B is a data table for recording information (hereinafter referred to as “entry information”) related to the result of character recognition of the image data included in the conference information. The entry information table 610 is generated for each entry when the image data is analyzed and the entry by the user is specified.
The
図6(c)に示す会議テキスト情報テーブル620は、会議において発生したテキスト(以下、「会議テキスト」と言う)に関する情報(以下、「会議テキスト情報」と言う)を記録するデータテーブルである。
会議テキスト情報は、図6(a)に示す発話情報と図6(b)に示す記入情報を統合して生成するものである。
発生時刻列621は、会議テキスト情報が発生した時刻を記録するものであり、発話時刻601または記入時刻611の時刻を記録する。
会議テキスト列622は、会議テキストを記録するものであり、発話テキスト列602または記入テキスト列612のテキストを記録する。
区分列623は、そのレコードが、統合前に発話情報であったのか記入情報であったのかを記録するものである。発話情報であった場合には「0」を記録し、記入情報であった場合には「1」を記録する。
要点列624は、そのレコードの会議テキスト列622の会議テキストが要点であるか否かを記録するものである。ここで「要点」とは、アクションアイテムや決定事項など、その会議の主要な内容を示すものである。要点である場合には「1」を記録し、そうでない場合には「0」を記録する。
なお、会議テキスト情報テーブル620のレコードは、発生時刻列621の値で昇順に(発生した順に)ソートする。
The conference text information table 620 shown in FIG. 6C is a data table that records information (hereinafter referred to as “conference text information”) regarding text generated in the conference (hereinafter referred to as “conference text information”).
The meeting text information is generated by integrating the utterance information shown in FIG. 6A and the entry information shown in FIG.
The
The
The
The
The records in the conference text information table 620 are sorted in ascending order (in the order in which they occurred) by the value in the
図7に示す要約情報テーブル700は、図6(c)に示す会議テキストを要約した情報(以下、「要約情報」と言う)を記録したデータテーブルである。要約情報は、会議テキスト情報テーブル620の会議テキスト列622の会議テキストから、アジェンダ毎に生成されて、要約情報テーブル700に記録される。
アジェンダ名列701は、要約情報のアジェンダ名を記録するものである。要約テキスト列702は、生成した要約テキストを記録するものである。
The summary information table 700 illustrated in FIG. 7 is a data table in which information (hereinafter referred to as “summary information”) that summarizes the conference text illustrated in FIG. 6C is recorded. The summary information is generated for each agenda from the conference text in the
The
次に、会議サーバ102が議事録を生成する処理について説明する。
図8は、議事録を生成する処理を示すフローチャートである。会議サーバ102が起動すると、CPU251は、ストレージ255に記録されている会議サーバプログラムを読み込む。そして、会議サーバプログラムをRAM254に展開して実行する。これにより、会議サーバ102は議事録生成処理を実行することが可能となる。
Next, a process in which the
FIG. 8 is a flowchart showing a process for generating the minutes. When the
まず、S801において、CPU251は、会議情報を受信したか否かを判定する。
CPU251が、外部インターフェース258を介して、会議装置101から会議情報を受信しているならば、YESと判定し、S802に遷移する。外部インターフェース258を介して、会議装置101から会議情報を受信していなければ、NOと判定し、S810に遷移する。
First, in S801, the
If the
S802において、CPU251は、受信した会議情報に含まれる音声データに対して音声認識を行い、発話テキストを取得する。ここで、音声認識を行うため、CPU251は、音声データを先頭から走査して、次の処理を行う。
まず、CPU251は、音声データ中の無音区間を検出する。無音区間の検出は、例えば、音声データの音圧が閾値以下の状態が一定時間継続されたことに基づいて検出する。ある無音区間と次の無音区間の間の区間を発話区間とする。CPU251は、個々の発話区間について、音声認識を行って発話テキストを取得する。
次に、CPU251は、会議情報の音声情報テーブル400の録音開始時刻列401の録音開始時刻と、各発話区間の音声データの先頭からの経過位置とから、各発話区間の発話時刻を計算する。
このようにして取得した発話区間毎に、発話情報テーブル600のレコードを生成する。そして、該当する発話時刻と発話テキストを、それぞれ、発話時刻列601と発話テキスト列602に記録する。
In step S <b> 802, the
First, the
Next, the
A record of the utterance information table 600 is generated for each utterance section acquired in this way. Then, the corresponding utterance time and utterance text are recorded in the
S803において、CPU251は、取得した発話テキストから音声コマンドを削除する処理を行う。削除処理のフローの詳細な説明は図13で後述する。
In step S803, the
S804において、CPU251は、受信した会議情報に含まれる画像データに対して文字認識を行い、記入テキストを取得する。ここで、文字認識を行うため、CPU251は、会議情報に含まれる画像情報テーブル410のレコードを順に走査して、次の処理を行う。
画像情報テーブル410のレコードは、撮影時刻列411の値で昇順に(撮影した順に)ソートしておく。CPU251は、現在参照しているレコードの画像データ列412が示す画像データと、ひとつ前のレコードの画像データ列412が示す画像データとの画像の差分を求める。画像の差分は、ひとつ前のレコードに該当する撮影から、現在参照しているレコードに該当する撮影までの間に、ユーザが記入した文字を含む、部分画像とみなすことができる。この部分画像に対して文字認識を行い、記入テキストを取得する。
また、CPU251は、現在参照しているレコードの撮影時刻列411の撮影時刻を、画像の差分が発生した時刻、すなわちユーザによる記入が行われた記入時刻とする。
このようにして取得された画像の差分(ユーザによる記入)毎に、CPU251は、記入情報テーブル610にレコードを生成する。そして、該当する記入時刻と記入テキストを、それぞれ記入時刻列611と記入テキスト列612に記録する。
In step S <b> 804, the
Records in the image information table 410 are sorted in ascending order (in order of shooting) by the value of the
In addition, the
The
S805において、CPU251は、発話テキストと記入テキストを統合して、会議テキストを取得する。すなわち、CPU251は、S802で生成した発話情報テーブル600(図6(a))とS804で生成した記入情報テーブル610(図6(b))とを統合して、会議テキスト情報テーブル620(図6(c))を生成する。
ここで、CPU251は、発話情報テーブル600に含まれるレコードを会議テキスト情報テーブル620に追加する。このとき、発話時刻列601の発話時刻を会議テキストが発生した時刻として発生時刻列621に、発話テキスト列602の発話テキストを会議テキストとして会議テキスト列622に、それぞれ記録する。区分列623には、元のデータが発話情報であったことを示す「0」を記録する。
また、CPU251は、記入情報テーブル610に含まれるレコードを会議テキスト情報テーブル620に追加する。このとき、記入時刻列611の記入時刻を会議テキストが発生した時刻として発生時刻列621に、記入テキスト列612の記入テキストを会議テキストとして会議テキスト列622に、それぞれ記録する。区分列623には、元のデータが記入情報であったことを示す「1」を記録する。CPU251は、以上追加したレコードを発生時刻列621の値で昇順に(発生した順に)ソートする。
In S805, the
Here, the
In addition, the
S806において、CPU251は、S805で生成した会議テキストから要点を抽出する。
CPU251は、S805において会議テキスト情報テーブル620に追加した各レコードについて、会議テキスト列622の会議テキストが要点であるか否かを判定する。例えば、会議テキストが予め決定した特定のキーワードを含むか否かに基づいて判定する。会議テキストに特定のキーワードが含まれていれば、要点であると判定する。また、音声コマンドを用いて、AIや決定事項の登録指示を行った会議テキストである場合、要点であると判定する。
会議テキストが要点である場合には、要点列624に「1」を記録し、そうでない場合は「0」を記録する。
In step S806, the
The
If the conference text is the main point, “1” is recorded in the
S807において、CPU251は、S805で生成した会議テキストを要約する。CPU251は、会議情報のアジェンダ情報テーブル420のレコードを順に走査して、次の処理を行う。
アジェンダ情報テーブル420のレコードは、アジェンダ開始時刻列421の値で昇順に(アジェンダの開始順に)ソートしておく。CPU251は、現在参照しているレコードのアジェンダ開始時刻列421のアジェンダ開始時刻から、アジェンダ終了時刻列422のアジェンダ終了時刻までの期間を取得する。
そして、会議テキスト情報テーブル620から発生時刻列621の値が当該期間に該当するレコード群を抽出する。CPU251は、それらレコード群の会議テキスト列622のテキストを要約して要約テキストを生成する。そして、要約情報テーブル700にレコードを追加して、要約テキスト列702に生成した要約テキストを記録する。
また、現在参照しているアジェンダ情報テーブル420のレコードのアジェンダ名列423のアジェンダ名を、要約情報テーブル700に追加したレコードのアジェンダ名701に記録する。
In S807, the
The records in the agenda information table 420 are sorted in ascending order (in order of agenda start) according to the values in the agenda start
Then, a record group in which the value of the
Further, the agenda name in the
S808において、CPU251は、以上のようにして取得した議事録元情報および会議情報に基づいて議事録を生成する。
ここで、図9を用いて、S808で作成する議事録について説明する。図9は、議事録の概要を示す図である。
議事録900は、議事を示す議事テキストデータ910と、添付画像データ群920からなる。
議事テキストデータ910には、会議開催時間911、要点一覧912、アジェンダ名913、915、要約テキスト914、916が含まれる。
会議開催時間911は、音声情報テーブル400の録音開始時刻列401の録音開始時刻(会議開始時刻)と、録音終了時刻列402の録音終了時刻(会議終了時刻)から生成される。要点一覧912は、会議テキスト情報テーブル620のレコードであり、要点列624が「1」(要点)であるレコードの会議テキスト622の一覧である。
アジェンダ名913、915は、要約情報テーブル700のアジェンダ名列701のアジェンダ名である。要約テキスト914、916は、要約情報テーブル700の要約テキスト702である。
また、添付画像データ群920は、会議情報に含まれる画像データを含む。
In S808, the
Here, the minutes created in S808 will be described with reference to FIG. FIG. 9 is a diagram showing an outline of the minutes.
The
The
The
The attached
S809において、CPU251は、議事録を、会議情報に含まれる送信先に送信する。
送信方法としては、例えば、電子メールで送信することができる。CPU251は、電子メール本文に議事テキストデータ910を入力し、添付ファイルに添付画像データ群920を入力して、電子メールを送信する。
In step S809, the
As a transmission method, for example, it can be transmitted by electronic mail. The
S810において、CPU251は、終了の指示がなされたか否かを判定する。
ユーザは、例えば、外部インターフェース258を介して、別体のPCから会議サーバ102に終了を指示することができる。
終了指示がなされていたら、YESと判定し、処理を終了する。終了指示がなされていなければ、NOと判定し、S801に遷移する。
In step S810, the
For example, the user can instruct the
If an end instruction has been given, the determination is YES and the process ends. If no termination instruction is given, it is determined as NO and the process proceeds to S801.
ここで、図10を用いて、S807で生成する要約テキストについて説明する。
図10(a)は、要約テキストを生成する処理の一例を示すフローチャートである。本フローチャートの処理のために入力されるテキストは、会議テキスト情報テーブル620の複数のレコードである。
Here, the summary text generated in S807 will be described with reference to FIG.
FIG. 10A is a flowchart illustrating an example of a process for generating a summary text. The text input for the processing of this flowchart is a plurality of records in the conference text information table 620.
S1001において、CPU251は、入力されたレコード全てを参照し、会議テキスト列622の会議テキストに出現する各単語について、その重要度を算出する。これは、例えば、各単語の出現頻度に基づいて算出することができる。
In step S <b> 1001, the
S1002において、CPU251は、入力された各レコードの会議テキスト列622の会議テキストについて、それぞれその重要度を算出する。具体的には、S1001で算出した各単語の重要度を参照し、各会議テキストに含まれる単語の重要度の合計値を算出することなどにより、会議テキストの重要度を算出する。
In S1002, the
S1003において、CPU251は、重要度が閾値以上の会議テキストを抽出する。そして、これらの会議テキストを結合して要約テキストを生成する。そして、本処理の結果として、処理呼び出し元に要約テキストを返す。
In step S <b> 1003, the
ところで、会議においては、ホワイトボードなどの記入媒体には、論点や重要な意見を記載する場合がある。これらの内容は議事として重要なので、記入テキストを要約テキストに優先的に反映するようにしてもよい。
例えば、S1003において、CPU251は、入力されたレコードの区分列623の値を確認する。値が「1」(元のデータが記入情報である場合)ならば、重要度が閾値以上か否かに関わらず、当該レコードの会議テキスト列622の会議テキストを要約テキストの一部として抽出するようにしてもよい。
By the way, in a meeting, a point of entry or an important opinion may be written on an entry medium such as a whiteboard. Since these contents are important for the agenda, the entry text may be preferentially reflected in the summary text.
For example, in S1003, the
あるいは、記入テキストを要約テキストに優先的に反映する処理の例として、次のように要約テキスト生成処理を実行してもよい。
図10(b)は、要約テキストを生成する処理の別の例を示すフローチャートである。図10(a)のフローチャートと同様に、本フローチャートの処理のために入力されるテキストは、会議テキスト情報テーブル620の複数のレコードである。
Alternatively, as an example of processing that preferentially reflects the entry text in the summary text, the summary text generation processing may be executed as follows.
FIG. 10B is a flowchart showing another example of processing for generating summary text. Similar to the flowchart of FIG. 10A, the text input for the process of this flowchart is a plurality of records in the conference text information table 620.
S1011において、CPU251は、入力されたレコードのうち、区分列623が「1」(元のデータが記入情報である場合)のレコードを参照して、会議テキスト列622の会議テキストに含まれる単語のリスト(以下、「記入単語リスト」と言う)を作成する。
S1012において、CPU251は、S1001と同様の処理を行う。
S1013において、CPU251は、S1002と同様の処理を行う。
S1014において、CPU251は、S1011で作成した記入単語リストを参照して、S1013で算出した会議テキストの重要度を更新する。すなわち、入力された各レコードの会議テキスト列622の会議テキストについて、記入単語リストの単語を含む場合には、当該会議テキストの重要度にバイアスを加える。
S1015において、CPU251は、S1003と同様の処理を行う。
In S <b> 1011, the
In S1012, the
In S1013, the
In S1014, the
In S1015, the
あるいは、S1014において、対象の会議テキストが記入単語リストの単語を含む場合には、重要度の最大値を付与するようにし、S1015で当該会議テキストが要約テキストの一部として抽出されるようにしてもよい。 Alternatively, in S1014, if the target meeting text includes a word in the entry word list, the maximum importance level is assigned, and in S1015, the meeting text is extracted as part of the summary text. Also good.
次に、発話テキストから音声コマンドを削除する処理について説明する。
図13は、会議サーバ102における音声コマンドを削除する処理を示すフローチャートである。
Next, processing for deleting a voice command from the utterance text will be described.
FIG. 13 is a flowchart showing processing for deleting a voice command in the
まず、S1301において、CPU251は、発話テキストから発話区間分のテキストを取得する。
First, in S1301, the
S1302において、CPU251は、取得したテキストの内、音声コマンドのヘッダ部に相当するテキストが含まれているか否かを判定する。具体的には、会議サーバ102のストレージ255に予め保持されたヘッダ部の文言と一致するテキストが含まれているか否かを判定する。
含まれている場合、YESと判定し、S1303に遷移する。含まれていない場合、NOと判定し、S1312に遷移する。
In step S <b> 1302, the
If it is included, the determination is YES, and the process proceeds to S1303. When not included, it determines with NO and changes to S1312.
S1303において、CPU251は、ヘッダ部に続いて、音声コマンドの命令部に相当するテキストが含まれているか否かを判定する。具体的には、会議サーバ102のストレージ255に保持された命令部データテーブル1100の命令部の文字列1101と一致するテキストが、ヘッダ部に続くテキストに含まれているか否かを判定する。
含まれている場合、YESと判定し、S1304に遷移する。含まれていない場合、NOと判定し、S1312に遷移する。
In step S1303, the
If it is included, it is determined as YES, and the process proceeds to S1304. When not included, it determines with NO and changes to S1312.
S1304において、CPU251は、S1303で検出した音声コマンドの命令がデータ部を有するか否かを判定する。具体的には、S1303で検出したテキストと命令部の文字列1101とが一致するレコードを特定する。そして、特定されたレコードのデータ部有無列1103を参照し「有」の場合、YESと判定し、S1305に遷移する。「無」の場合は、NOと判定し、S1306に遷移する。
In step S1304, the
S1305において、CPU251は、命令部に続くテキストに音声コマンドのデータ部に相当するテキストが含まれているか否かを判定する。具体的には、命令部に相当するテキストから、発話区間の終了(句読点)までに、テキストが含まれているか否かを判定する。
含まれている場合、YESと判定し、S1306に遷移する。含まれていない場合、NOと判定し、S1312に遷移する。
In step S <b> 1305, the
If it is included, it is determined as YES, and the process proceeds to S1306. When not included, it determines with NO and changes to S1312.
S1306において、CPU251は、命令部データテーブル1100の削除範囲1104を参照し、検出したコマンドの削除範囲を特定する。
S1307において、CPU251は、S1302で検出したヘッダ部に相当するテキストを発話テキストから削除する。例えば、会議サーバ102のストレージ255に予め保持された、ヘッダ部に相当する「Hey」という文字列と一致する箇所を削除する。
In step S <b> 1306, the
In S1307, the
S1308において、CPU251は、発話テキストから命令部を削除するか否かを判定する。S1306において特定した削除範囲に命令部が含まれる場合、YESと判定し、S1309に遷移する。含まれない場合、NOと判定し、S1310に遷移する。
S1309において、CPU251は、S1303で検出した命令部に相当するテキストを発話テキストから削除する。
In step S1308, the
In S1309, the
S1310において、CPU251は、発話テキストからデータ部を削除するか否かを判定する。S1306において特定した削除範囲にデータ部が含まれる場合、YESと判定し、S1311に遷移する。含まれない場合、NOと判定し、S1312に遷移する。
S1311において、CPU251は、S1305で検出したデータ部に相当するテキストを発話テキストから削除する。
In step S1310, the
In S1311, the
S1312において、CPU251は、発話テキストに含まれるテキストを全て走査したか否かを判定する。
全て走査した場合、YESと判定し、処理を終了する。まだ走査を全て終了していない場合は、S1301に遷移する。
In step S1312, the
If all scanning has been performed, the determination is YES and the processing is terminated. If all the scanning has not been completed yet, the process proceeds to S1301.
図14は、発話テキストから音声コマンドのヘッダ部を削除する動作例を示す図である。
本動作は、図14(a)に示すように、例えば、ユーザが決定事項を登録するための発話を行った場合に実行される。
この例では、「Hey、決定事項、Dさんは見直し案を作成する。」という発話(図14(a))に対して、ヘッダ部(Hey)を削除した、「決定事項、Dさんは見直し案を作成する。」というテキスト(図14(b))が生成される。
本動作は、上述の例以外にも、図11に示すように、AIへの登録指示、アジェンダの開始指示、アジェンダの終了指示、などを行う場合にも実行される。
FIG. 14 is a diagram illustrating an operation example in which the header portion of the voice command is deleted from the utterance text.
As shown in FIG. 14A, this operation is executed, for example, when the user makes an utterance for registering a decision item.
In this example, the header (Hey) is deleted from the utterance (FIG. 14A) “Hey, decision item, Mr. D prepares a review plan”. The text “Create a plan” (FIG. 14B) is generated.
In addition to the above-described example, this operation is also performed when a registration instruction to AI, an agenda start instruction, an agenda end instruction, and the like are performed as shown in FIG.
会議サーバ102は、S801において会議装置101から会議情報に含まれる音声データを受信し、S802において音声データを音声認識して、図14(a)のような発話テキスト1400が得られるものとする。発話テキスト1400に示されるテキストは、音声認識された結果の一部であり、内容はヘッダ部を削除する動作を説明するための一例である。
続いて、S803において音声コマンドの削除処理が実行される。音声コマンドの削除処理の詳細は図13のフローチャートに示すとおりである。
Assume that the
Subsequently, a voice command deletion process is executed in S803. The details of the voice command deletion process are as shown in the flowchart of FIG.
S1301において、CPU251は、発話テキストから発話区間のテキストを取得する。ここでは、発話テキスト1400から発話区間のテキスト1401が取得された場合を説明する。
S1302において、CPU251は、ヘッダ部に相当するテキストが含まれているか否かを判定する。ここでは、発話区間のテキスト1401には、会議サーバ102のストレージ255に予め保持された「Hey」という音声コマンドのヘッダ部に相当するテキストが含まれているため、判定がYESとなり、S1303に遷移する。
S1303において、CPU251は、ヘッダ部に続いて命令部に相当するテキストが含まれているか否かを判定する。そこで、ヘッダ部に相当する「Hey」に続くテキストと、命令部データテーブル1100の命令部の文字列1101とを比較する。そうすると、発話区間のテキスト1401には、「決定事項」という命令部に相当するテキストが含まれているため、判定がYESとなり、S1304に遷移する。
S1304において、CPU251は、検出した命令部がデータ部を有するか否かを判定する。図11で命令部の文字列1101が「決定事項」であるレコードを参照すると、ここでは、データ部有無列1103が「有」であるため、判定がYESとなり、S1305に遷移する。
S1305において、CPU251は、命令部に続いてデータ部に相当するテキストが含まれているか否かを判定する。発話区間のテキスト1401には、命令部に相当する「決定事項」に続くテキストとして、「Dさんは見直し案を作成する。」というテキストが含まれているため、判定がYESとなり、S1306に遷移する。
In step S1301, the
In S1302, the
In step S1303, the
In step S1304, the
In step S1305, the
S1306において、命令部データテーブル1100を参照し、音声コマンドの削除範囲を特定する。命令部データテーブル1100の命令部の文字列1101が「決定事項」であるレコードの削除範囲列1104を参照すると、削除範囲はヘッダ部であると特定される。
S1307において、CPU251は、発話区間のテキスト1401からヘッダ部に相当する「Hey」というテキストを削除する。
S1308において、CPU251は、命令部を削除するか否かを判定する。削除範囲はヘッダ部であるため、判定はNOとなり、S1310に遷移する。
S1310において、CPU251は、データ部を削除するか否かを判定する。削除範囲はヘッダ部であるため、判定はNOとなり、S1312に遷移する。
以上の処理が実行されると、図14(b)のように、発話テキストに含まれる発話区間のテキストから、ヘッダ部が削除されたテキスト1402が得られる。
In S1306, the command part data table 1100 is referred to, and the deletion range of the voice command is specified. Referring to the
In step S <b> 1307, the
In step S1308, the
In step S1310, the
When the above processing is executed, as shown in FIG. 14B, the
図15は、発話テキストから音声コマンドのヘッダ部と命令部を削除する動作例を示す図である。
本動作は、図15(a)に示すように、例えば、ユーザが決定事項を削除するための発話を行った場合に実行される。
この例では、「Hey、決定事項削除。」という発話(図15(a))に対して、ヘッダ部(Hey)と命令部(決定事項削除)がいずれも削除される(図15(b))。
本動作は、上述の例以外にも、図11に示すように、AIへの削除指示、撮影の指示、などを行う場合にも実行される。
FIG. 15 is a diagram illustrating an operation example in which the header part and the command part of the voice command are deleted from the utterance text.
As shown in FIG. 15A, this operation is executed when, for example, the user makes an utterance for deleting a decision item.
In this example, both the header part (Hey) and the command part (determination item deletion) are deleted in response to the utterance "Hey, determination item deletion" (FIG. 15A) (FIG. 15B). ).
In addition to the above-described example, this operation is also performed when a deletion instruction to AI, a photographing instruction, or the like is performed as shown in FIG.
会議サーバ102は、S801において会議装置101からの会議情報に含まれる音声データを受信し、S802において音声データを音声認識して、図15(a)のような発話テキスト1500が得られるものとする。発話テキスト1500に示されるテキストは、音声認識された結果の一部であり、内容は動作例を説明するための一例である。
続いて、S803において音声コマンドの削除処理が実行される。音声コマンドの削除処理の詳細は図13のフローチャートに示すとおりである。
The
Subsequently, a voice command deletion process is executed in S803. The details of the voice command deletion process are as shown in the flowchart of FIG.
S1301において、CPU251は、発話テキストから発話区間のテキストを取得する。ここでは、発話テキスト1500から発話区間のテキスト1501が取得された場合を説明する。
In step S1301, the
S1302において、CPU251は、ヘッダ部に相当するテキストが含まれているか否かを判定する。発話区間のテキスト1501には、会議サーバ102のストレージ255に予め保持された「Hey」という音声コマンドのヘッダ部に相当するテキストが含まれているため、判定がYESとなり、S1303に遷移する。
S1303において、CPU251は、ヘッダ部に続いて命令部に相当するテキストが含まれているか否かを判定する。そこで、ヘッダ部に相当する「Hey」に続くテキストと、命令部データテーブル1100の命令部の文字列1101とを比較する。そうすると、発話区間のテキスト1501には「決定事項削除」という命令部に相当するテキストが含まれているため、判定がYESとなり、S1304に遷移する。
S1304において、CPU251は、検出した命令部がデータ部を有するか否かを判定する。図11で命令部の文字列1101が「決定事項削除」であるレコードを参照すると、データ部有無列1103が「無」であるため、判定がNOとなり、S1306に遷移する。
In S1302, the
In step S1303, the
In step S1304, the
S1306において、命令部データテーブル1100を参照し、コマンドの削除範囲を特定する。命令部データテーブル1100の命令部の文字列1101が「決定事項削除」であるレコードの削除範囲列1104を参照すると、削除範囲はヘッダ部と命令部であると特定される。
S1307において、発話区間のテキスト1501からヘッダ部に相当する「Hey」というテキストを削除する。
S1308において、命令部を削除するか否かを判定する。削除範囲はヘッダ部と命令部であるため、判定はYESとなり、S1309に遷移する。
S1309において、発話区間のテキスト1501から命令部に相当する「決定事項削除」というテキストを削除する。
S1310において、データ部を削除するか否かを判定する。削除範囲はヘッダ部と命令部であるため、判定はNOとなり、S1312に遷移する。
以上の処理が実行されると、図15(b)のように、発話テキストに含まれる発話区間のテキストから、ヘッダ部と命令部が削除されたテキスト1502が得られる。
In step S1306, the command part data table 1100 is referenced to specify the command deletion range. Referring to the
In step S1307, the text “Hey” corresponding to the header portion is deleted from the
In S1308, it is determined whether or not to delete the command part. Since the deletion range is the header part and the command part, the determination is YES, and the process proceeds to S1309.
In step S1309, the text “determination item deletion” corresponding to the command part is deleted from the
In step S1310, it is determined whether to delete the data part. Since the deletion range is the header part and the command part, the determination is no and the process proceeds to S1312.
When the above processing is executed, as shown in FIG. 15B, a
図16は、発話テキストから音声コマンドのヘッダ部と命令部とデータ部を削除する動作例を示す図である。
本動作は、図16(a)に示すように、例えば、音量の変更を指示するための発話を行った場合に実行される。
この例では、「Hey、音量、10上げる。」という発話(図16(a))に対して、ヘッダ部(Hey)、命令部(音量)、データ部(10上げる)がいずれも削除される(図16(b))。
FIG. 16 is a diagram illustrating an operation example in which the header portion, the command portion, and the data portion of the voice command are deleted from the utterance text.
This operation is executed when, for example, an utterance for instructing a change in volume is performed, as shown in FIG.
In this example, the header part (Hey), the command part (sound volume), and the data part (10 increase) are all deleted for the utterance “Hey, volume increase by 10” (FIG. 16A). (FIG. 16B).
会議サーバ102は、S801において会議装置101からの会議情報に含まれる音声データを受信し、S802において音声データを音声認識して、図16(a)のような発話テキスト1600が得られるものとする。発話テキスト1600に示されるテキストは、音声認識された結果の一部であり、内容は動作例を説明するための一例である。
続いて、S803において音声コマンドの削除処理が実行される。音声コマンドの削除処理の詳細は図13のフローチャートに示すとおりである。
The
Subsequently, a voice command deletion process is executed in S803. The details of the voice command deletion process are as shown in the flowchart of FIG.
S1301において、CPU251は、発話テキストから発話区間のテキストを取得する。ここでは、発話テキスト1600から発話区間のテキスト1601が取得された場合を説明する。
In step S1301, the
S1302において、CPU251は、ヘッダ部に相当するテキストが含まれているか否かを判定する。発話区間のテキスト1601には、会議サーバ102のストレージ255に予め保持された「Hey」という音声コマンドのヘッダ部に相当するテキストが含まれているため、判定がYESとなり、S1303に遷移する。
S1303において、CPU251は、ヘッダ部に続いて命令部に相当するテキストが含まれているか否かを判定する。そこで、ヘッダ部に相当する「Hey」に続くテキストと、命令部データテーブル1100の命令部の文字列1101とを比較する。そうすると、発話区間のテキスト1601には「音量」という命令部に相当するテキストが含まれているため、判定がYESとなり、S1304に遷移する。
S1304において、CPU251は、検出した命令部がデータ部を有するか否かを判定する。図11で命令部の文字列1101が「音量」であるレコードを参照すると、データ部有無列1103が「有」であるため、判定がYESとなり、S1305に遷移する。
S1305において、CPU251は、命令部に続いてデータ部に相当するテキストが含まれているか否かを判定する。発話区間のテキスト1601には、命令部に相当する「音量」に続くテキストとして、「10上げる。」というテキストが含まれているため、判定がYESとなり、S1306に遷移する。
In S1302, the
In step S1303, the
In step S1304, the
In step S1305, the
S1306において、CPU251は、命令部データテーブル1100を参照し、音声コマンドの削除範囲を特定する。命令部データテーブル1100の命令部の文字列1101が「音量」であるレコードの削除範囲列1104を参照すると、削除範囲はヘッダ部と命令部とデータ部であると特定される。
S1307において、CPU251は、発話区間のテキスト1601からヘッダ部に相当する「Hey」というテキストを削除する。
S1308において、CPU251は、命令部を削除するか否かを判定する。削除範囲はヘッダ部と命令部とデータ部であるため、判定はYESとなり、S1309に遷移する。
S1309において、CPU251は、発話区間のテキスト1601から命令部に相当する「音量」というテキストを削除する。
S1310において、CPU251は、データ部を削除するか否かを判定する。削除範囲はヘッダ部と命令部とデータ部であるため、判定はYESとなり、S1311に遷移する。
S1311において、CPU251は、発話区間のテキスト1601から命令部に続くテキストである「10上げる。」というテキストを削除し、S1312に遷移する。
以上の処理が実行されると、図16(b)のように、発話テキストに含まれる発話区間のテキストから、ヘッダ部と命令部とデータ部が削除されたテキスト1602が得られる。
In step S <b> 1306, the
In step S <b> 1307, the
In step S1308, the
In step S <b> 1309, the
In step S1310, the
In step S1311, the
When the above processing is executed, as shown in FIG. 16B, a
以上、本実施例に示したとおり、音声コマンドとして発話したテキストのうち、議事録に不要なテキストを削除し、議事録に必要なテキストを発話テキストに残すことができる。 As described above, as shown in the present embodiment, it is possible to delete unnecessary text in the minutes from the text uttered as a voice command and leave the necessary text in the minutes in the utterance text.
(その他の実施例)
本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。
本発明は上述の実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述の実施例及びその変形例を組み合わせた構成も全て本発明に含まれるものである。
(Other examples)
The present invention supplies a program that realizes one or more functions of the above-described embodiments to a system or apparatus via a network or a storage medium, and one or more processors in a computer of the system or apparatus read and execute the program This process can be realized. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
Further, the present invention may be applied to a system composed of a plurality of devices or an apparatus composed of a single device.
The present invention is not limited to the above-described embodiments, and various modifications can be made based on the spirit of the present invention, and they are not excluded from the scope of the present invention. That is, all the configurations in which the above-described embodiments and modifications thereof are combined are also included in the present invention.
100 会議システム
101 会議装置
102 会議サーバ
600 発話情報テーブル
700 要約情報テーブル
900 議事録
1100 命令部データテーブル
1400 発話テキスト
100
Claims (11)
前記テキストのうち、情報処理装置に対する命令の開始を示す部分である、ヘッダ部を検出する第1の検出手段と、
前記テキストのうち、前記情報処理装置に対する前記命令の種類を示す部分である、命令部を検出する第2の検出手段と、
前記テキストのうち、前記情報処理装置に対する前記命令の内容を示す部分である、データ部を検出する第3の検出手段と、
前記音声データのうち、前記テキストから削除する削除範囲を前記命令部に応じて決定する決定手段と、を有することを特徴とする情報処理装置。 Speech recognition means for recognizing spoken speech data to text,
A first detection means for detecting a header portion, which is a portion indicating the start of an instruction to the information processing device, of the text;
A second detection means for detecting an instruction part, which is a part indicating the type of the instruction to the information processing apparatus in the text;
Third detection means for detecting a data portion, which is a portion indicating the content of the command to the information processing apparatus, in the text;
An information processing apparatus comprising: a determining unit that determines a deletion range to be deleted from the text in the voice data according to the command unit.
前記テキストのうち、情報処理装置に対する命令の開始を示す部分である、ヘッダ部を検出する第1の検出工程と、
前記テキストのうち、前記情報処理装置に対する前記命令の種類を示す部分である、命令部を検出する第2の検出工程と、
前記テキストのうち、前記情報処理装置に対する前記命令の内容を示す部分である、データ部を検出する第3の検出工程と、
前記音声データのうち、前記テキストから削除する削除範囲を前記命令部に応じて決定する決定工程と、を有することを特徴とする情報処理方法。 A speech recognition process for recognizing spoken speech data to text,
A first detection step of detecting a header portion, which is a portion indicating the start of an instruction to the information processing device, of the text;
A second detection step of detecting an instruction part, which is a part of the text indicating the type of the instruction to the information processing apparatus;
A third detection step of detecting a data portion, which is a portion indicating the content of the command to the information processing device, in the text;
A determination step of determining a deletion range to be deleted from the text in the voice data according to the command unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018020599A JP2019138988A (en) | 2018-02-08 | 2018-02-08 | Information processing system, method for processing information, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018020599A JP2019138988A (en) | 2018-02-08 | 2018-02-08 | Information processing system, method for processing information, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019138988A true JP2019138988A (en) | 2019-08-22 |
Family
ID=67695299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018020599A Pending JP2019138988A (en) | 2018-02-08 | 2018-02-08 | Information processing system, method for processing information, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019138988A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112020003618T5 (en) | 2019-07-29 | 2022-04-14 | Alps Alpine Co., Ltd. | molding |
-
2018
- 2018-02-08 JP JP2018020599A patent/JP2019138988A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112020003618T5 (en) | 2019-07-29 | 2022-04-14 | Alps Alpine Co., Ltd. | molding |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6870242B2 (en) | Conference support system, conference support device, and conference support method | |
JP2019101754A (en) | Summarization device and method for controlling the same, summarization system, and program | |
JP4710331B2 (en) | Apparatus, method, program and recording medium for remote control of presentation application | |
JP4364251B2 (en) | Apparatus, method and program for detecting dialog | |
JP5144424B2 (en) | Imaging apparatus and information processing method | |
WO2005094437A2 (en) | System and method for automatically cataloguing data by utilizing speech recognition procedures | |
JP7427408B2 (en) | Information processing device, information processing method, and information processing program | |
JP7279494B2 (en) | CONFERENCE SUPPORT DEVICE AND CONFERENCE SUPPORT SYSTEM | |
JP4469867B2 (en) | Apparatus, method and program for managing communication status | |
JP2019053566A (en) | Display control device, display control method, and program | |
JP2010109898A (en) | Photographing control apparatus, photographing control method and program | |
JP2019139572A (en) | Conference system, summarization device, method of controlling conference system, method of controlling summarization device, and program | |
JPWO2020003785A1 (en) | Audio processing device, audio processing method and recording medium | |
JP2005345616A (en) | Information processor and information processing method | |
JP2019105740A (en) | Conference system, summary device, control method of conference system, control method of summary device, and program | |
JP2019138988A (en) | Information processing system, method for processing information, and program | |
JP2021156907A (en) | Information processor and information processing method | |
JP2019152758A (en) | Conference system, conference system control method, and program | |
JP2020052511A (en) | Summary generation apparatus, summary generation method, and program | |
CN117897930A (en) | Streaming data processing for hybrid online conferencing | |
WO2021192991A1 (en) | Information processing device, information processing method, and program | |
JP6401488B2 (en) | Foreign language conversation understanding support device, foreign language conversation understanding support method and program | |
JP2019139571A (en) | Conference system, summarization device, method of controlling conference system, method of controlling summarization device, and program | |
JP2019161409A (en) | Conference system, information processing device and control method therefor, and program | |
JP2019138989A (en) | Information processor, method for processing information, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20180306 |