JP2022048516A - Information processing unit, program and information processing method - Google Patents
Information processing unit, program and information processing method Download PDFInfo
- Publication number
- JP2022048516A JP2022048516A JP2020154373A JP2020154373A JP2022048516A JP 2022048516 A JP2022048516 A JP 2022048516A JP 2020154373 A JP2020154373 A JP 2020154373A JP 2020154373 A JP2020154373 A JP 2020154373A JP 2022048516 A JP2022048516 A JP 2022048516A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- text information
- data
- unit
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 29
- 238000003672 processing method Methods 0.000 title claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 22
- 238000000034 method Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
Images
Abstract
Description
本発明は、情報処理装置、プログラム、および情報処理方法に関する。 The present invention relates to an information processing apparatus, a program, and an information processing method.
従来、会議での発話者の音声を取得し、音声認識技術を用いて取得した音声に基づいて議事録を作成する技術が知られている。 Conventionally, there is known a technique of acquiring the voice of a speaker at a conference and creating minutes based on the voice acquired by using voice recognition technology.
下記特許文献1に開示されている議事録作成システムでは、発話者の音声を予め設定された辞書を用いて音声認識を行い、その結果認識されなかった用語について、第2の辞書に対して認識要求を出力する。そして、議事録作成システムでは、第2の辞書による認識結果を受信して、議事録を作成する。このような議事録作成システムによれば、予め設定された辞書で音声認識できなかったところを第2の辞書による音声認識で補うことができるため、認識精度を向上させることが可能になる。そして、議事録作成者が作成された議事録を確認して修正する作業を減らすことができる。
In the minutes creation system disclosed in
特許文献1の議事録作成システムでは、会議での発話者の音声がそもそも認識しづらい音声(例えば、音量が小さいなど)であった場合、第2の辞書による認識であっても認識が困難なため、議事録作成者の修正する作業を減らすことができないという問題がある。
In the minutes creation system of
そこで、本発明は、発話者の音声が認識しづらい音声であってもその発話の内容を精度よく記録することができる情報処理装置、プログラム、および情報処理方法を提供することを目的とする。 Therefore, an object of the present invention is to provide an information processing device, a program, and an information processing method capable of accurately recording the content of an utterance even if the voice of the speaker is difficult to recognize.
本発明の一態様に係る情報処理装置は、第1発話者による第1音声の第1音声データを取得する第1音声取得部と、第1音声を復唱する音声を取得するための復唱モードが設定された場合に、第1音声データに基づいて、第1音声を再生する再生部と、復唱モードが設定された場合に、復唱する音声の音声データとして第2発話者による第2音声の第2音声データを取得する第2音声取得部と、第1音声データと第2音声データとに基づいて、第1音声の第1認識結果を示す第1テキスト情報と、第2音声の第2認識結果を示す第2テキスト情報と、を取得する認識結果取得部と、第1テキスト情報と第2テキスト情報とに基づいて、テキストによる発話の記録データを生成する記録生成部と、を備える。 The information processing device according to one aspect of the present invention has a first voice acquisition unit that acquires the first voice data of the first voice by the first speaker, and a repeat mode for acquiring the voice that repeats the first voice. When set, a playback unit that reproduces the first voice based on the first voice data, and when the repeat mode is set, the second voice by the second speaker is the voice data of the voice to be repeated. 2 The first text information indicating the first recognition result of the first voice and the second recognition of the second voice based on the second voice acquisition unit for acquiring the voice data, the first voice data and the second voice data. It includes a second text information indicating a result, a recognition result acquisition unit for acquiring, and a record generation unit for generating recorded data of a text-based speech based on the first text information and the second text information.
本発明の一態様に係るプログラムは、コンピュータに、第1発話者による第1音声の第1音声データを取得する第1音声機能と、第1音声を復唱する音声を取得するための復唱モードが設定された場合に、第1音声データに基づいて、第1音声を再生する再生機能と、復唱モードが設定された場合に、復唱する音声の音声データとして第2発話者による第2音声の第2音声データを取得する第2音声取得機能と、第1音声データと第2音声データとに基づいて、第1音声の第1認識結果を示す第1テキスト情報と、第2音声の第2認識結果を示す第2テキスト情報と、を取得する認識結果取得機能と、第1テキスト情報と第2テキスト情報とに基づいて、テキストによる発話の記録データを生成する記録生成機能と、を実現させる。 The program according to one aspect of the present invention has a first voice function for acquiring the first voice data of the first voice by the first speaker and a repeat mode for acquiring the voice for repeating the first voice in the computer. When set, a playback function that reproduces the first voice based on the first voice data, and when the repeat mode is set, the second voice by the second speaker is the voice data of the voice to be repeated. 2 The first text information indicating the first recognition result of the first voice and the second recognition of the second voice based on the second voice acquisition function for acquiring the voice data and the first voice data and the second voice data. A recognition result acquisition function for acquiring a second text information indicating a result, and a record generation function for generating recorded data of a text-based speech based on the first text information and the second text information are realized.
本発明の一態様に係る情報処理方法は、コンピュータが、第1発話者による第1音声の第1音声データを取得し、第1音声を復唱する音声を取得するための復唱モードが設定された場合に、第1音声データに基づいて、第1音声を再生し、復唱モードが設定された場合に、復唱する音声の音声データとして第2発話者による第2音声の第2音声データを取得し、第1音声データと第2音声データとに基づいて、第1音声の第1認識結果を示す第1テキスト情報と、第2音声の第2認識結果を示す第2テキスト情報と、を取得し、第1テキスト情報と第2テキスト情報とに基づいて、テキストによる発話の記録データを生成する。 In the information processing method according to one aspect of the present invention, a repeat mode is set for the computer to acquire the first voice data of the first voice by the first speaker and to acquire the voice to repeat the first voice. In this case, the first voice is played based on the first voice data, and when the repeat mode is set, the second voice data of the second voice by the second speaker is acquired as the voice data of the voice to be repeated. , The first text information indicating the first recognition result of the first voice and the second text information indicating the second recognition result of the second voice are acquired based on the first voice data and the second voice data. , Generates textual speech recording data based on the first text information and the second text information.
本発明によれば、発話者の音声が認識しづらい音声であってもその発話の内容を精度よく記録することができる情報処理装置、プログラム、および情報処理方法を提供することができる。 According to the present invention, it is possible to provide an information processing device, a program, and an information processing method capable of accurately recording the content of an utterance even if the voice of the speaker is difficult to recognize.
添付図面を参照して、本発明の好適な実施形態(以下、「本実施形態」という)について説明する。なお、各図において、同一の符号を付したものは、同一または同様の構成を有する。 A preferred embodiment of the present invention (hereinafter referred to as “the present embodiment”) will be described with reference to the accompanying drawings. In each figure, those with the same reference numerals have the same or similar configurations.
本実施形態において、「部」や「手段」、「装置」、「システム」とは、単に物理的手段を意味するものではなく、その「部」や「手段」、「装置」、「システム」が有する機能をソフトウェアによって実現する場合も含む。また、1つの「部」や「手段」、「装置」、「システム」が有する機能が2つ以上の物理的手段や装置により実現されても、2つ以上の「部」や「手段」、「装置」、「システム」の機能が1つの物理的手段や装置により実現されてもよい。 In the present embodiment, the "part", "means", "device", and "system" do not simply mean physical means, but the "part", "means", "device", and "system". Including the case where the function of is realized by software. Further, even if the functions of one "part", "means", "device", or "system" are realized by two or more physical means or devices, two or more "parts" or "means", The functions of "device" and "system" may be realized by one physical means or device.
<1.システム構成>
図1を参照して、本実施形態に係わる議事録作成システム1のシステム構成例を説明する。議事録作成システム1は、ユーザの会議などでの発話の内容を議事録として記録するシステムである。しかしながら、本発明をこれに限る趣旨ではない。本発明は、議事録に限らずに、ユーザの発話の内容を記録する諸々のシステムに適用可能である。図1に示すように、議事録作成システム1は、記録装置100と、ユーザ端末200とを含む。また議事録作成システム1は、ネットワークNを介して音声認識システム300と接続さている。
<1. System configuration>
A system configuration example of the
ネットワークNは、無線ネットワークや有線ネットワークにより構成される。ネットワークの一例としては、携帯電話網や、PHS(Personal Handy-phone System)網、無線LAN(Local Area Network)、3G(3rd Generation)、LTE(Long Term Evolution)、4G(4th Generation)、5G(5th Generation)、WiMax(登録商標)、赤外線通信、Bluetooth(登録商標)、有線LAN、電話線、電灯線ネットワーク、IEEE1394等に準拠したネットワークがある。 The network N is composed of a wireless network and a wired network. Examples of networks include mobile phone networks, PHS (Personal Handy-phone System) networks, wireless LAN (Local Area Network), 3G (3rd Generation), LTE (Long Term Evolution), 4G (4th Generation), and 5G (4th Generation). 5th Generation), WiMax®, infrared communication, Bluetooth®, wired LAN, telephone line, power line network, IEEE1394 compliant network, etc.
記録装置100は、ユーザ端末200や音声認識システム300との通信が可能な情報処理装置である。記録装置100は、後述の第1発話者や第2発話者の音声を取得して、取得した音声を音声認識によりテキストに変換して記録する。
The
記録装置100は、取得した音声に対話などで応答する、いわゆるスマートスピーカーであるが、これに限る趣旨ではない。記録装置100は、他の例として、汎用のタブレット端末やスマートフォンなどであってもよい。記録装置100は、例えば、汎用のタブレット端末に専用のプログラムをインストールし、このプログラムを実行させることにより、タブレット端末などを記録装置100として使用してもよい。
The
ユーザ端末200は、ユーザからの要求の受け付けの入力や記録装置100との通信が可能なスマートフォンやラップトップ端末などの情報処理装置である。ユーザ端末200は、所定のプログラムを実行することにより、記録装置100と連携して、音声認識により記録されたテキストデータ(以下、「記録データ」ともいう)を表示させたり、この記録データを編集するためのフォームを表示させてテキストデータの編集を可能にさせたりする。
The
ユーザは、第1発話者と第2発話者とを含み、発話者以外にも議事録作成の担当者など議事録作成システム1に関わる者を含む。
The user includes the first speaker and the second speaker, and includes a person related to the
音声認識システム300は、記録装置100と通信の通信が可能なシステムである。音声認識システム300は、記録装置100から受信したユーザの音声を示す音声データ(以下、単に「音声データ」ともいう)に基づいてユーザの音声を認識する。
The
<2.システム概要>
図2を参照して、議事録作成システム1の概要を説明する。
<2. System overview>
The outline of the
(1)図2に示すように、記録装置100の第1音声取得部131は、第1発話者による第1音声として「会議を始めます」の第1音声データを取得する。(2)記録装置100の認識結果取得部112は、上記(1)の取得した第1音声データに基づいて、第1音声の音声認識を音声認識システム300に指示する。(3)記録装置100の認識結果取得部112は、音声認識システム300から、第1音声の第1認識結果を示す第1テキスト情報を取得する。
(1) As shown in FIG. 2, the first
「第1発話者」とは、議事録作成システム1の記録対象の第1音声を発声する者である。第1発話者は、例えば、会議における発言者であってもよい。
The "first speaker" is a person who utters the first voice to be recorded by the
(4)記録装置100の再生部151は、第2発話者の指定などにより復唱モードが設定された場合に、第1音声データに基づいて、第1音声を再生する。すなわち、再生部151は、第1音声「会議を始めます」を出力する。ここで「復唱モード」とは、第1音声を復唱する音声(第2音声)を取得するための動作モードである。また、復唱モードは、第2音声を取得するために第1音声を再生する動作モードであってもよい。
(4) The
(5)復唱モードが設定された場合、第1音声を聴きながら第2発話者が復唱して第2音声「会議を始めます」を発声すると、記録装置100の第2音声取得部132は、この復唱する第2音声の第2音声データを取得する。(6)記録装置100の認識結果取得部112は、上記(5)の取得した第2音声データに基づいて、第2音声の音声認識を音声認識システム300に指示する。(3)記録装置100の認識結果取得部112は、音声認識システム300から、第2音声の第2認識結果を示す第2テキスト情報を取得する。
(5) When the repeat mode is set, when the second speaker repeats while listening to the first voice and utters the second voice "Start a meeting", the second
「第2発話者」とは、第1音声を復唱して第2音声を発声する者である。なお、「第1発話者」と「第2発話者」について、特に区別の必要がない場合、以降、総称して「発話者」ともいう。 The "second speaker" is a person who repeats the first voice and utters the second voice. When it is not necessary to distinguish between the "first speaker" and the "second speaker", they are also collectively referred to as "speaker" hereafter.
「第1音声データ」と「第2音声データ」について、特に区別の必要がない場合、以降、総称して「音声データ」ともいう。 When it is not necessary to distinguish between the "first voice data" and the "second voice data", they are also collectively referred to as "voice data" hereafter.
「第1認識結果」と「第2認識結果」について、特に区別の必要がない場合、以降、総称して「認識結果」ともいう。 When it is not necessary to distinguish between the "first recognition result" and the "second recognition result", they are also collectively referred to as "recognition result" hereafter.
「第1テキスト情報」と「第2テキスト情報」について、特に区別の必要がない場合、以降、総称して「テキスト情報」ともいう。 When it is not necessary to distinguish between "first text information" and "second text information", they are also collectively referred to as "text information" hereafter.
(7)記録装置100の比較部113は、第1テキスト情報と第2テキスト情報とを比較する。(8)記録装置100の記録生成部114は、上記(7)の比較結果ならびに第1テキスト情報および第2テキスト情報に基づいて、議事録としてテキストによる記録データを生成する。記録生成部114は、例えば、第2テキスト情報との比較結果により不一致だった第1テキスト情報の箇所について、第2テキスト情報に置き換えて記録データを生成してもよい。
(7) The
上記構成によれば、記録装置100は、会議での第1発話者の第1音声が認識しづらい音声であっても第1音声を復唱した第2音声の音声認識結果との比較によりテキストによる記録データを議事録として生成することができる。このため、上記構成によれば、記録装置100は、精度よく議事録を作成することができる。
According to the above configuration, the
<3.機能構成>
図4を参照して、本実施形態に係る記録装置100の機能構成を説明する。図4に示すように、記録装置100は、制御部110と、音声取得部130と、通信部140と、出力部150と、記憶部160と、を備える。
<3. Function configuration>
The functional configuration of the
制御部110は、認識結果取得部112と、記録生成部114と、を備える。また、制御部110は、例えば、音声認識部111、比較部113、発話データ生成部115、表示部116、受付部117、信頼度算出部118、推定部119、精度算定部120、音声データ生成部121、または加工部122を備えてもよい。
The
制御部110は、受付部117が受け付けた復唱モードの指定に基づいて、記録装置100の動作モードを復唱モードに設定する。
The
音声認識部111は、音声取得部130により取得された発話者の音声データを認識する。音声認識部111は、この認識の結果を示すテキスト情報を生成する。音声認識部111は、例えば、認識結果取得部112からの音声認識の指示により、音声取得部130が取得した音声データを、音声認識技術を用いてテキスト情報に変換してもよい。音声認識部111は、例えば、自己の認識率を算出してもよい。
The
音声認識部111は、例えば、通信部140が音声認識システム300に音声データを送信している途中で音声認識システム300との通信が不可能になった場合、未送信の音声データの音声に基づいてテキスト情報を生成してもよい。
The
認識結果取得部112は、音声取得部130により取得された第1音声データに基づいて、第1音声の第1認識結果を示す第1テキスト情報を取得する。また、認識結果取得部112は、音声取得部130により取得された第2音声データに基づいて、第2音声の第2認識結果を示す第2テキスト情報を取得する。認識結果取得部112は、例えば、第1音声データと第2音声データとに基づいて、音声認識システム300または音声認識部111にこれらの音声データの音声認識を指示する。認識結果取得部112は、この指示に対する応答として、第1テキスト情報と第2テキスト情報とを取得する。
The recognition result
認識結果取得部112は、例えば、後述の発話データ生成部115が生成した第1発話データと第2発話データに基づいて、複数の区間ごとに区分けされた第1テキスト情報と第2テキスト情報とを取得してもよい。
The recognition result
「区間」とは、例えば、音声データ(デジタル信号)において音声レベルがゼロまたは所定の閾値以下となる無音区間と、音声レベルがゼロより大きいまたは所定の閾値を超える発話区間(有音区間)と、を含んでもよい。また区間は、他の例として、所定期間ごとに区切られた範囲であってもよい。 The "section" is, for example, a silent section in which the voice level is zero or below a predetermined threshold in voice data (digital signal), and an utterance section (sound section) in which the voice level is higher than zero or exceeds a predetermined threshold. , May be included. Further, as another example, the section may be a range divided by a predetermined period.
比較部113は、第1テキスト情報と、第2テキスト情報と、を比較する。比較部113は、例えば、複数の区間ごとに、第1テキスト情報と第2テキスト情報とを比較してもよい。比較部113は、比較結果として、第1テキスト情報と第2テキスト情報とが一致しているか、または第1テキスト情報と第2テキスト情報とが不一致であるかを出力する。
The
比較部113は、例えば、複数の発話区間ごとに、第1テキスト情報と第2テキスト情報のどちらの音声の認識精度(以下、単に「認識精度」ともいう)が高いか比較してもよい。認識精度は、例えば、音声認識処理における認識率であってもよい。比較部113は、この比較結果を、精度フラグに設定してもよい。ここで「精度フラグ」とは、区間ごとに、第1テキスト情報および第2テキスト情報のどちらのテキスト情報の認識精度が高いかを示す情報である。精度フラグには、例えば、相対的に認識精度が高い方に「1」が設定され、他方(相対的に認識精度が低い方)に「0」が設定される。
For example, the
記録生成部114は、第1テキスト情報と第2テキスト情報とに基づいて、テキストによる発話の記録データを生成する。ここでいう「発話の記録データ」は、例えば、会議の議事録となるデータであってもよい。なお、発話の記録データは、以降、単に「記録データ」ともいう。
The
上記構成によれば、記録生成部114は、例えば、会議での第1発話者の第1音声が認識しづらい音声であっても、第1音声を復唱した第2音声の音声認識結果である第2テキスト情報も用いることで第1テキスト情報を補うことができる。このため、上記構成によれば、記録生成部114は、精度よく記録データを議事録として生成することができる。
According to the above configuration, the
記録生成部114は、例えば、比較部113による比較結果に基づいて、記録データを生成してもよい。記録生成部114は、例えば、精度フラグに基づいて、複数の発話区間ごとに、第1テキスト情報と第2テキスト情報に対して、比較部113による比較結果で認識精度が高い方を採用する。記録生成部114は、複数の発話区間ごとにこの採用した第1テキスト情報と第2テキスト情報とを組み合わせて、記録データを生成する。
The
上記構成によれば、記録生成部114は、区間ごとに、第1テキスト情報と第2テキスト情報の認識精度がより高い方を記録データとして採用することができる。このため、記録生成部114は、より精度よく記録データを生成することができる。
According to the above configuration, the
記録生成部114は、例えば、後述の受付部117が受け付けた第1テキスト情報と第2テキスト情報のいずれを発話の記録として採用するかの選択に基づいて、第1テキスト情報と第2テキスト情報とを区間ごとに組み合わせて、記録データを生成してもよい。
The
上記構成によれば、記録生成部114は、比較結果をユーザに対して表示させて、区間ごとに第1テキスト情報または第2テキスト情報の選択された方を組み合わせて記録データを生成することができる。このため、上記構成によれば、第1テキスト情報と第2テキスト情報に対してユーザに選択させることができるため、ユーザの要望にそった記録データを生成することができる。したがって、上記構成によれば、議事録作成において合目的性・正確性を向上させることができる。
According to the above configuration, the
記録生成部114は、例えば、第1テキスト情報と第2テキスト情報とが比較部113による比較結果で不一致だった区間について、受付部117が受け付けたテキスト情報で第1テキスト情報または第2テキスト情報を上書きして、記録データを生成してもよい。
The
上記構成によれば、記録生成部114は、ユーザが編集したテキスト情報で記録データをカスタマイズできるため、よりユーザの要望にそった記録データを生成することができる。したがって、上記構成によれば、発話の記録において合目的性・正確性を向上させることができる。
According to the above configuration, since the
発話データ生成部115は、第1音声データの複数の区間に対応する複数の第1発話データを生成する。また、発話データ生成部115は、第2音声データの複数の区間に対応する複数の第2発話データを生成する。なお、「第1発話データ」と「第2発話データ」について、特に区別の必要がない場合、以降、総称して「発話データ」ともいう。
The utterance
発話データ生成部115は、まず、音声データから複数の発話区間と無音区間とを検出する。次に、発話データ生成部115は、音声データを、発話区間ごとの発話データに分割する。このように発話データ生成部115は、音声データの複数の発話区間に対応する複数の発話データを生成する。
The utterance
表示部116は、比較部113による比較結果を、ユーザ端末200に表示させる。表示部116は、例えば、比較結果として、表示情報を生成する。表示情報は、例えば、複数の区間それぞれの記録データや精度フラグなどを含む。この「複数の区間それぞれの記録データ」は、複数の区間それぞれの第1テキスト情報と、複数の区間それぞれの第2テキスト情報と、を含む。表示情報は、図4に示す第1比較画面A1と第2比較画面A2などの議事録作成システム1の画面をユーザ端末200に表示させるための情報でもある。表示部116は、通信部140を介して、生成した表示情報をユーザ端末200に送信する。
The
表示部116は、例えば、比較部113による比較結果と併せて、第1認識結果および第2認識結果それぞれの信頼度をユーザ端末200に表示させてもよい。ここで「信頼度」とは、音声の認識結果の確からしさの度合い(確信度)である。表示情報は、これらの信頼度を含む。
The
上記構成によれば、表示部116は、ユーザに対して、第1テキスト情報と第2テキスト情報との比較結果と併せて、それぞれの認識結果の信頼度を表示させることができる。このため、上記構成によれば、ユーザは、第1テキスト情報と第2テキスト情報のいずれを採用するか選択するにあたって、その指標となりうる信頼度を確認することができる。したがって、表示部116は、第1テキスト情報と第2テキスト情報の選択におけるユーザビリティを向上させることができる。
According to the above configuration, the
表示部116は、例えば、比較部113による比較結果と併せて、第1認識結果および第2認識結果それぞれの認識精度をユーザ端末200に表示させてもよい。表示情報は、これらの認識精度を含む。
The
上記構成によれば、表示部116は、ユーザに対して、第1テキスト情報と第2テキスト情報との比較結果と併せて、それぞれの認識結果の認識精度を表示させることができる。このため、上記構成によれば、第1テキスト情報と第2テキスト情報のいずれを採用するか選択するにあたって、その指標となりうる信頼度をユーザは確認することができる。したがって、表示部116は、第1テキスト情報と第2テキスト情報の選択におけるユーザビリティを向上させることができる。
According to the above configuration, the
表示部116は、例えば、第1テキスト情報と第2テキスト情報とが比較結果で不一致だった区間について、当該区間の第1テキスト情報または前記第2テキスト情報を編集するための編集フォームをユーザ端末200に表示させてもよい。表示情報は、この編集フォームを含む。
The
受付部117は、ユーザ端末200から、複数の区間それぞれに対して、第1認識結果(第1テキスト情報)と第2認識結果(第2テキスト情報)のいずれを第1発話者の発話の記録として採用するかの選択を受け付ける。受付部117は、例えば、表示部116が表示させた第1テキスト情報と第2テキスト情報とが不一致だった区間に対して、第1テキスト情報と第2テキスト情報のいずれを第1発話者の発話の議事録として採用するかの選択を受け付けてもよい。
The
受付部117は、例えば、ユーザ端末200から、表示部116が表示させた編集フォームに対してユーザが入力したテキスト情報を受け付けてもよい。
The
ここで、図4を参照して、表示部116が表示させる比較画面の一例を説明する。図4(a)は、発話区間ごとに区分けされた第1テキスト情報を第1認識結果として表示する第1比較画面の一例を示す。図4(b)は、発話区間ごとに区分けされた第2テキスト情報を第2認識結果として表示する第2比較画面の一例を示す。本例では、説明を容易にするために、第1比較画面と第2比較画面とを別の画面として表示させる例を説明するが、これに限る趣旨ではない。第1比較画面の表示内容と第2比較画面の表示内容とは、例えば、一つの画面にまとめて並べて表示させてもよい。
Here, an example of the comparison screen displayed by the
図4(a)に示すように、表示部116は、ユーザ端末200に、第1比較画面A1を表示させる。第1比較画面A1は、第1音声データ表示エリアa11と、第1音声データ表示エリアa11や第2音声データ表示エリアa21に表示された発話データの音声を再生するための再生ボタンa12と、表示・編集されたテキスト情報を記録データとして保存するための保存ボタンa13と、を含む。
As shown in FIG. 4A, the
第1音声データ表示エリアa11は、発話区間ごとに区分けされたそれぞれの第1発話データを表示する複数の第1発話データ表示エリアを含む。本例では、複数の第1発話データ表示エリアの中から、第1発話データ表示エリアa111と、第1発話データ表示エリアa112と、を用いて説明する。第1発話データ表示エリアa111は、第1発話者を「参加者1」として、参加者1が発生した音声を認識した第1テキスト情報「こんにちは」を表示する。また、第1発話データ表示エリアa112は、第1発話者を「参加者2」として、参加者2が発生した音声を認識した第1テキスト情報「こちは」を表示する。
The first voice data display area a11 includes a plurality of first utterance data display areas for displaying each first utterance data divided for each utterance section. In this example, the first utterance data display area a111 and the first utterance data display area a112 will be described from among the plurality of first utterance data display areas. The first utterance data display area a111 displays the first text information "hello" recognizing the voice generated by the
図4(b)に示すように、表示部116は、ユーザ端末200に、第2比較画面A2を表示させる。第2比較画面A2は、第2音声データ表示エリアa21と、再生ボタンa12と、保存ボタンa13と、を含む。
As shown in FIG. 4B, the
第2音声データ表示エリアa21は、第1音声データ表示エリアa11と同様に、複数の第2発話データ表示エリアを含む。 The second voice data display area a21 includes a plurality of second utterance data display areas, like the first voice data display area a11.
本例では、複数の第2発話データ表示エリアの中から、第1発話データ表示エリアa111に対応する第2発話データ表示エリアa211と、第1発話データ表示エリアa112に対応する第2発話データ表示エリアa212と、を用いて説明する。第1発話データ表示エリアa111に表示された第1発話データに対して、その第1音声を復唱した第2音声の第2発話データが第2発話データ表示エリアa112に表示されている。第1発話データ表示エリアa112に表示された第1発話データに対して、その第1音声を復唱した第2音声の第2発話データが第2発話データ表示エリアa212に表示されている。 In this example, from the plurality of second utterance data display areas, the second utterance data display area a211 corresponding to the first utterance data display area a111 and the second utterance data display corresponding to the first utterance data display area a112. The area a212 will be described with reference to the area a212. With respect to the first utterance data displayed in the first utterance data display area a111, the second utterance data of the second voice that repeats the first voice is displayed in the second utterance data display area a112. With respect to the first utterance data displayed in the first utterance data display area a112, the second utterance data of the second voice that repeats the first voice is displayed in the second utterance data display area a212.
第2発話データ表示エリアa211では、第2発話者を「復唱者1」として、復唱者1が発生した音声を認識した第2テキスト情報「こんにちは」を表示する。また、第2発話データ表示エリアa212では、第2発話者を同じく「復唱者1」として、復唱者1が発生した音声を認識した第2テキスト情報「こんにちは」を表示する。
In the second utterance data display area a211, the second speaker is set as "
第1発話データ表示エリアa111と第2発話データ表示エリアa211とでは、該当の発話区間における第1テキスト情報と第2テキスト情報とが一致しているため、それぞれの認識結果を表示する。なお、このように一致している発話データ表示エリアのいずれかをユーザが押下(タップ操作・クリック操作など)した場合、表示部116は、この発話データ表示エリアのテキスト情報を編集するための編集入力ウィンドウa14(編集フォームの一態様)をユーザ端末200に表示させてもよい。
In the first utterance data display area a111 and the second utterance data display area a211, since the first text information and the second text information in the corresponding utterance section match, the respective recognition results are displayed. When the user presses (tap operation, click operation, etc.) any of the utterance data display areas that match in this way, the
表示部116は、第1テキスト情報と第2テキスト情報の不一致箇所が一目でわかるよう、一致箇所と相違するように、不一致箇所に関する発話データ表示エリアの表示態様を変更させることができる。具体的には、第1発話データ表示エリアa112と第2発話データ表示エリアa212とは、該当の発話区間における第1テキスト情報と第2テキスト情報とが不一致のため、それぞれの認識結果を表示する他に、比較結果や編集フォームなどを表示する。より具体的には、第1発話データ表示エリアa112は、比較結果として、認識精度が相対的に低いことを示す困り顔のアイコンと、文字色(例えば、赤)やフォントを変更したテキスト情報と、を表示する。第2発話データ表示エリアa212は、比較結果として、認識精度が相対的に高いことを示す笑顔のアイコンと、文字色(例えば、黒)やフォントを変更したテキスト情報と、を表示する。また、第2発話データ表示エリアa212は、ユーザがテキスト情報を直接編集できるテキストフォーム(編集フォームの一態様)にもなっている。また、このテキストフォームは、第2認識結果の認識精度が所定の閾値より高い場合、ユーザによる編集が不要である旨を示す表示態様としてもよい(例えば、背景色(例えば、グレー)を変更してもよい)。ユーザがこのテキストフォームに対してテキスト情報を入力すると、受付部117がこの入力されたテキスト情報を受け付ける。
The
表示部116は、第1テキスト情報と第2テキスト情報の不一致箇所について、第1認識結果の認識精度より第2認識結果の認識精度が高い場合には、上記の例のように第2発話データ表示エリアa212をテキストフォームにして表示させる。他方、表示部116は、第2認識結果の認識精度より第1認識結果の認識精度が高い場合には、第1発話データ表示エリアa112の第1テキスト情報を第2発話データ表示エリアa212にコピー(上書き)した上で第2発話データ表示エリアa212をテキストフォームにして表示させてもよい。なお、この際、表示部116は、第2認識結果の第2テキスト情報を、第2発話データ表示エリアa212の備考エリア(不図示)に表示させてもよい。
When the recognition accuracy of the second recognition result is higher than the recognition accuracy of the first recognition result for the mismatched portion between the first text information and the second text information, the
ユーザは、上記のとおり不一致箇所である第1発話データ表示エリアa112と第2発話データ表示エリアa212とに対して、記録データとしてどちらを採用するかそれぞれのエリアを押下して選択することができる。ユーザが選択すると、受付部117がこの選択を受け付ける。
As described above, the user can select which of the first utterance data display area a112 and the second utterance data display area a212, which are the mismatched parts, to be adopted as the recorded data by pressing each area. .. When the user makes a selection, the
上記構成によれば、表示部116は、第1比較画面A1と第2比較画面A2とにより、第1テキスト情報と第2テキスト情報とを区間ごとに比較可能に表示させることができる。また、上記構成によれば、表示部116は、第1テキスト情報と第2テキスト情報の不一致箇所が一目でわかるようその表示態様を変更することができる。このため上記構成によれば、表示部116は、テキスト情報の確認やテキスト情報の選択などのUIにおいて、ユーザビリティを向上させることができる。
According to the above configuration, the
図3に戻って説明を続ける。受付部117は、例えば、ユーザ端末200から、再生部によるステレオフォニック再生にあたって、左右のチャンネルの音声を入れ替える指定を受け付けてもよい。
The explanation will be continued by returning to FIG. The
受付部117は、例えば、ユーザ端末200から、復唱モードの指定を受け付けてもよい。
The
信頼度算出部118は、第1認識結果および第2認識結果それぞれの信頼度を算出する。信頼度算出部118は、例えば、認識結果に含まれる単語ごとの信頼度を算出し、算出した単語ごとの信頼度を集計して認識結果の信頼度を算出してもよい。
The
単語ごとの信頼度は、例えば、所定の範囲の値(例えば、0.0~1.0の範囲)を有してもよい。この所定の範囲の値の中で数値が1.0、すなわち上限に近いほど、単語ごとの信頼度は、その単語に似たスコアをもつ他の競合候補が相対的に少ないことを示す。他方、この所定の範囲の値の中で数値が0.0、すなわち下限に近いほど、単語ごとの信頼度は、その単語に似たスコアをもつ他の競合候補が相対的に多いことを示す。すなわち、所定の範囲の中で数値が上限に近ければ近いほど、単語ごとの信頼度は、認識結果の一位候補の単語に近い他の候補がなく、信頼(確信)をもってその認識結果を出力したということがいえる。 The word-by-word confidence may have, for example, a value in a predetermined range (eg, in the range of 0.0 to 1.0). The closer the number is 1.0, or the upper limit, within this predetermined range of values, the less the word-by-word confidence is that there are relatively few other competitors with scores similar to that word. On the other hand, the closer the number is 0.0, that is, the lower limit, in this predetermined range of values, the more the word-by-word confidence indicates that there are relatively many other competitors with scores similar to that word. .. That is, the closer the numerical value is to the upper limit within the predetermined range, the more the reliability of each word is that there is no other candidate close to the word of the first candidate in the recognition result, and the recognition result is output with confidence (confidence). It can be said that it was done.
単語の信頼度の算出方法は、いくつかの方法が考えられるが、例えば、駒谷、河原著「音声認識結果の信頼度を用いた効率的な確認・誘導を行う対話処理」(情報処理学会論文誌、Vol.43、No.10、pp3078-3086)が知られている。 There are several possible methods for calculating the reliability of words. For example, Komatani and Kawahara, "Dialogue processing for efficient confirmation and guidance using the reliability of speech recognition results" (IPSJ Paper) Journal, Vol. 43, No. 10, pp3078-3086) is known.
推定部119は、第1音声データに基づいて、第1発話者と記録装置100との間の第1距離を推定する。また、推定部119は、第2音声データに基づいて、第2発話者と記録装置100との間の第2距離を推定する。ここで「発話者と記録装置100との間の距離(以下、単に「発話者との距離」ともいう)」とは、具体的には、発話者と音声入力装置817の複数のマイクロフォン(マイクアレイ)(以下、単に「マイクロフォン」ともいう)との間の距離であってもよい。
The
推定部119は、例えば、発話者ごとの音声データに基づいて、発話者の方向や位置または発話者との距離などを推定する。推定部119は、推定結果(発話者の方向や位置または発話者との距離など)を位置情報として記憶部160に記録してもよい。推定部119は、例えば、音声入力装置817に入力された二つの音声信号の時間波形の間で相互相関関数を算出して、算出した相互相関関数より音の到達時間差を算出する。推定部119は、算出した音到達時間差に基づいて、発話者の方向や位置または距離を推定してもよい。
The
精度算定部120は、第1音声の第1音量および第2音声の第2音量の組み合わせ(以下、「音量の組み合わせ」ともいう)に基づいて、第1認識結果および第2認識結果のそれぞれの認識精度を算定する。また、精度算定部120は、第1距離および第2距離の組み合わせ(以下、「距離の組み合わせ」ともいう)に基づいて、第1認識結果および第2認識結果のそれぞれの認識精度を算定する。精度算定部120は、音量の組み合わせまたは距離の組み合わせの少なくともいずれかに基づいて、第1認識結果および第2認識結果のそれぞれの認識精度を算定してもよい。
The
精度算定部120は、例えば、音声認識システム300による音声認識を利用する場合、音声認識システム300から認識結果と併せて認識率を取得してもよい。精度算定部120は、例えば、音声認識部111による音声認識を利用する場合、音声認識部111から認識結果と併せて認識率を取得してもよい。
For example, when the voice recognition by the
精度算定部120は、例えば、音量の組み合わせでは、所定の学習期間における音声の音量とそれに対応する音声の認識率を学習データとして入力することにより図5(a)に示すような音量と認識率の第1パターンモデルを構築してもよい。精度算定部120は、例えば、音量を説明変数(特徴量)とし認識率を目的変数(特徴量)として、回帰分析による統計処理を用いて第1パターンモデルを構築してもよい。精度算定部120は、構築した第1パターンモデルに音声の音量を入力して、認識率を算定してもよい。精度算定部120は、例えば、音量の取りうる範囲を3つの段階(「高」「中」「低」)に区分けする。精度算定部120は、例えば、区分けした3つの範囲のうち所定の範囲(R1)内に属する音量の認識率を「高」と算定する。
For example, in the combination of volumes, the
精度算定部120は、例えば、距離の組み合わせでは、所定の学習期間における発話者とマイクロフォンとの距離とそれに対応する認識率を学習データとして入力することにより図5(b)に示すような発話者との距離と認識率の第2パターンモデルを構築する。精度算定部120は、例えば、発話者との距離を説明変数(特徴量)とし認識率を目的変数(特徴量)として、回帰分析による統計処理を用いて第2パターンモデルを構築してもよい。精度算定部120は、構築した第2パターンモデルに発話者との距離を入力して、認識率を算定してもよい。精度算定部120は、例えば、発話者との距離の取りうる範囲を3つの段階(「高」「中」「低」)に区分けする。精度算定部120は、例えば、設定した3つの範囲のうち所定の範囲(R2)内に属する発話者との距離の認識率を「高」と算定する。
For example, in the combination of distances, the
精度算定部120は、例えば、第1音声の周波数および第2音声の周波数の組み合わせに基づいて、第1認識結果および第2認識結果のそれぞれの認識精度を算定してもよい。精度算定部120は、例えば、発話区間ごとに、第1音声や第2音声の周波数の統計値(平均値や中央値)または周波数帯域を算出し、統計値または周波数帯域の下限が所定の閾値より高い場合には、この発話区間における認識率を「高」と算定してもよい。すなわち、精度算定部120は、高い周波数成分が音声に多く含まれる場合に、認識率を高く算定してもよい。
The
精度算定部120は、例えば、音声に含まれる、子音または所定の閾値以上の高周波数域の少なくともいずれかのパワー(または音圧レベル)を特徴量として抽出してもよい。ここでいう「パワー」とは、いわゆる音響パワーであり、音の周波数分析において、周波数ごとの重み(パワー)を示し、人の聴覚が感じる音の大きさや強さ(音量)とは相違する。パワーは、子音または所定の閾値以上の高周波数域の音声の強さとする。精度算定部120は、抽出した特徴量に基づいて、認識率を算定してもよい。精度算定部120は、例えば、子音のパワーにより上記で算定した認識率に重み付けを行い、重み付けを行った認識率に対して上記のような3つの段階(「高」「中」「低」)で算定をしてもよい。
For example, the
精度算定部120は、例えば、音声の音圧レベルと周波数とについて、図6に示すようにプロットする。精度算定部120は、プロットしたデータが取りうる範囲を3つの認識率の段階(「高」「中」「低」)のエリアに区分けする。精度算定部120は、例えば、音声の音圧レベルと周波数とが区分けした3つのエリアのいずれに属するかによって、認識率を算定してもよい。
The
精度算定部120は、例えば、上記のように(ア)音量、(イ)発話者との距離、(ウ)周波数、(エ)子音または所定の閾値以上の高周波数域のパワー、の少なくともいずれかにより算定した認識率と、(オ)音声認識システム300や音声認識部111から取得した認識率と、の組み合わせに基づいて、複合的な認識率(以下、「複合認識率」ともいう)を算定してもよい。
The
精度算定部120は、例えば、上記(ア)~(オ)それぞれの認識率の加重平均を算出して、算出した加重平均を複合認識率として算定してもよい。精度算定部120は、例えば、この加重平均にあたって、上記の(ア)と(イ)の重要度を他の(ウ)~(オ)より高く設定してもよい。精度算定部120は、例えば、この重要度に比例した係数をそれぞれの認識率にかけて重み付けをしてもよい。精度算定部120は、具体的には、以下の式によって複合認識率を算定してもよい。
The
複合認識率=(α×上記(オ)の認識率+β×上記(ア)の認識率+θ×上記(イ)の認識率+δ・上記(ウ)の認識率)/(α+β+θ+δ) Combined recognition rate = (α x recognition rate of (e) above + β x recognition rate of (a) above + θ x recognition rate of (a) above + δ, recognition rate of (c) above) / (α + β + θ + δ)
「α」は、上記(オ)の重み係数であり、「β」は、上記(ア)、すなわち音量の重み係数であり、「θ」は上記(イ)、すなわち距離の重み係数であり、「δ」は、上記(ウ)、すなわち周波数の重み係数である。βとθは、設定した重要度に応じて、αおよびδより大きい値としてもよい。 “Α” is the weighting coefficient of (e) above, “β” is the weighting coefficient of (a) above, that is, the volume, and “θ” is the weighting coefficient of (b), that is, the distance. “Δ” is the above (c), that is, the frequency weighting coefficient. β and θ may be larger than α and δ depending on the set importance.
音声データ生成部121は、音声合成処理を用いて、第1テキスト情報に基づいて、第3音声を出力するための第3音声データを生成する。第3音声は、例えば、第1テキスト情報の文字列を読み上げる音声であってもよい。
The voice
音声データ生成部121は、例えば、テキスト情報に基づき、応答情報を生成してもよい。ここで「応答情報」とは、記録装置100がユーザの音声に対して応答するための情報である。音声データ生成部121は、例えば、自然言語処理を用いてテキスト情報を解析する。そして音声データ生成部121は、この解析により、ユーザの音声に対する応答の内容を特定し、応答情報を生成する。音声データ生成部121は音声合成処理を用いて、応答情報に基づいて、ユーザの音声に対する応答のための音声データを生成してもよい。
The voice
音声データ生成部121は、例えば、ユーザの音声の内容「議事録を開始」を形態素解析して「議事録」および「開始」という単語を抽出する。次に、音声データ生成部121は、抽出したこれらの単語を検索キーとして、辞書情報を検索して該当する応答の内容を特定する。この応答の内容とは、(ア)第1発話者の発話の議事録を作成するための第1音声データの取得や音声認識処理などの一連の処理を実行、(イ)ユーザに「議事録を開始します」とする音声を出力する処理を実行、である。
The voice
「辞書情報」とは、単語または複数の単語の組み合わせと、応答の内容を関連付ける情報である。辞書情報は、例えば、「議事録」および「開始」とする単語の組み合わせと、上記(ア)および(イ)の処理の実行とする応答の内容と、を関連付ける。 "Dictionary information" is information that associates a word or a combination of a plurality of words with the content of a response. The dictionary information associates, for example, the combination of the words "minutes" and "start" with the content of the response to execute the processes (a) and (b) above.
加工部122は、第1音声データおよび第3音声データを、ステレオ音声データに加工する。ここで「ステレオ音声データ」とは、第1音声と、第2音声と、第3音声とのいずれか二つの音声をステレオフォニック再生するための音声データである。
The
加工部122は、例えば、第1音声データ、第2音声データまたは第3音声データの少なくともいずれか二つを、ステレオ音声データに加工してもよい。この場合、ステレオ音声データは、(A)第1音声データと第2音声データとの組み合わせ、(B)第1音声データと第3音声データとの組み合わせ、(C)第2音声データと第3音声データとの組み合わせ、とする3パターンのうちいずれか一つのパターンであってもよい。
For example, the
加工部122は、例えば、ステレオ音声データの加工の前処理として、第1音声データ、第2音声データまたは第3音声データの音声の音像を定位させてもよい。加工部122は、例えば、第1音声データについて、第1発話者(チャンネル)ごとに仮想音源の位置に第1音声の音像を定位させてもよい。この仮想音源の位置は、例えば、発話者の位置(角度)に偏りがあると聞き取りづらい音声になる、すなわち認識しづらい音声になるため、発話者の位置が均等になるように設定してもよい。
For example, the
音声取得部130は、ユーザの音声の音声データを取得する。音声取得部130は、第1音声取得部131と、第2音声取得部132と、を備える。第1音声取得部131は、第1発話者による第1音声の第1音声データを取得する。第2音声取得部132は、復唱モードが設定された場合に、復唱する音声の音声データとして第2発話者による第2音声の第2音声データを取得する。
The
音声取得部130は、例えば、発話者ごとの音声データを取得するにあたって、音声入力装置817に入力された音声信号に対して指向性処理や音源を分離する音源分離処理をしてもよい。指向性処理とは、例えば、発話者の方向からの音声を強調し、発話者以外の方向からの音声を抑制する信号処理(ビームフォーミング処理)である。また音源分離処理とは、発話者の方向ごとの対象音を抽出して個別に分離する処理である。音声取得部130は、すなわち発話者を分離し、分離された発話者ごとに、発話者それぞれの方向からの音声の音声データを取得する。
For example, when acquiring voice data for each speaker, the
音声取得部130は、例えば、発話者ごとに指向性を有するマイクロフォンを用いて、集音したマイクロフォンを特定して発話者を識別し、識別した発話者ごとに音声データを取得してもよい。
The
通信部140は、ネットワークNを介して、ユーザ端末200、音声認識システム300などとの間で音声データやテキスト情報などの各種情報・データを送受信する。
The
出力部150は、応答情報に基づき、音声に対する応答を出力する。出力部150の出力態様は、どのような態様でもよい。出力部150の出力態様は、例えば、音声出力、画面出力、ファイル出力またはメッセージ出力などが考えられる。出力部150は、再生部151を備える。
The
再生部151は、復唱モードが設定された場合に、第1音声データに基づいて、第1音声を再生する。
The
再生部151は、例えば、加工部により加工されたステレオ音声データに基づいて、第1音声、第2音声、または第3音声の少なくともいずれか二つをステレオフォニック再生してもよい。また、再生部151は、ステレオフォニック再生にあたって、受付部117が受け付けた左右のチャンネルの入れ替えの指定に基づいて、左右のチャンネルの音声を入れ替えてもよい。再生部151は、例えば、左のチャンネルが第1音声で右のチャンネルが第3音声の場合、上記の左右のチャンネルの入れ替えの指定に基づいて、左のチャンネルが第3音声で右のチャンネルが第1音声に入れ替えてステレオフォニック再生してもよい。
The
再生部151は、例えば、加工部により加工されたステレオ音声データに基づいて、復唱モードが設定された場合に、第1音声の再生をする代わりに、第1音声と第3音声とをステレオフォニック再生してもよい。
For example, when the repeat mode is set based on the stereo audio data processed by the processing unit, the
上記構成によれば、再生部151は、第1音声と第3音声とをステレオフォニック再生することで第1音声と第3音声との違いを第2発話者に認識させることができる。このため、上記構成によれば、再生部151は、第1音声と第1音声を音声認識した第3音声との差異を認識させつつ第2発話者に復唱させることができる。
According to the above configuration, the
記憶部160は、音声データ(ステレオ音声データを含む)を記憶する。また記憶部160は、例えば、音声データと関連付けて、音声データの認識結果を示すテキスト情報、音声データに関する発話者の位置情報、音声データの認識結果の認識精度を示す精度情報、音声データの認識結果の信頼度を示す信頼度情報および/または音声データの認識結果に対する応答情報などを記憶してもよい。また記憶部160は、例えば、辞書情報を記憶してもよい。
The
記憶部160は、データベースマネジメントシステム(DBMS)を利用して上記の情報を記憶してもよいし、ファイルシステムを利用して上記の情報を記憶してもよい。DBMSを利用する場合は、上記の情報ごとにテーブルを設けて、テーブル間を関連付けてこれらの情報を管理してもよい。
The
<4.動作例>
図7を参照して、記録装置100の動作例を説明する。なお、以下に示す図7の動作例の処理の順番は一例であって、適宜、変更されてもよい。
<4. Operation example>
An operation example of the
図7に示すように、記録装置100の第1音声取得部131は、第1発話者による第1音声の第1音声データを取得する(S10)。次に、制御部110は、ユーザ端末200から受け付けた復唱モードの指定に基づいて、復唱モードを設定する(S11)。
As shown in FIG. 7, the first
次に、再生部151は、第1音声を復唱する音声を取得するための復唱モードが設定された場合に、第1音声データに基づいて、第1音声を再生する(S12)。次に、第2音声取得部132は、復唱モードが設定された場合に、復唱する音声の音声データとして第2発話者による第2音声の第2音声データを取得する(S13)。
Next, the
次に、認識結果取得部112は、第1音声データと第2音声データとに基づいて、第1音声の第1認識結果を示す第1テキスト情報と、第2音声の第2認識結果を示す第2テキスト情報と、を取得する(S15)。
Next, the recognition
次に、比較部113は、第1テキスト情報と第2テキスト情報とを比較する(S16)。記録生成部114は、第1テキスト情報と第2テキスト情報と比較部113による比較結果に基づいて、テキストによる発話の記録データを生成する(S17)。
Next, the
<5.ハードウェア構成>
図8を参照して、上述してきた記録装置100をコンピュータ800により実現する場合のハードウェア構成の一例を説明する。なお、それぞれの装置の機能は、複数台の装置に分けて実現することもできる。
<5. Hardware configuration>
With reference to FIG. 8, an example of the hardware configuration in the case where the
図8に示すように、コンピュータ800は、プロセッサ801と、メモリ803と、記憶装置805と、入力I/F部807と、データI/F部809と、通信I/F部811、表示装置813、音声入力装置817および音声出力装置819を含む。
As shown in FIG. 8, the
プロセッサ801は、メモリ803に記憶されているプログラムを実行することによりコンピュータ800における様々な処理を制御する。例えば、記録装置100の制御部110が備える各機能部などは、メモリ803に一時記憶されたプログラムをプロセッサ801が実行することにより実現可能である。
The
メモリ803は、例えばRAM(Random Access Memory)等の記憶媒体である。メモリ803は、プロセッサ801によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。
The
記憶装置805は、例えばハードディスクドライブ(HDD)やフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置805は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。この他、記憶装置805は、音声データ、テキスト情報、位置情報、精度情報、信頼度情報または応答情報などを登録するテーブルと、このテーブルを管理するDBを記憶することも可能である。このようなプログラムやデータは、必要に応じてメモリ803にロードされることにより、プロセッサ801から参照される。
The
入力I/F部807は、ユーザからの入力を受け付けるためのデバイスである。入力I/F部807の具体例としては、キーボードやマウス、タッチパネル、各種センサ、ウェアラブル・デバイス等が挙げられる。入力I/F部807は、例えばUSB(Universal Serial Bus)等のインタフェースを介してコンピュータ800に接続されても良い。
The input I /
データI/F部809は、コンピュータ800の外部からデータを入力するためのデバイスである。データI/F部809の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データI/F部809は、コンピュータ800の外部に設けられることも考えられる。その場合、データI/F部809は、例えばUSB等のインタフェースを介してコンピュータ800へと接続される。
The data I /
通信I/F部811は、コンピュータ800の外部の装置と有線または無線により、インターネットNを介したデータ通信を行うためのデバイスである。通信I/F部811は、コンピュータ800の外部に設けられることも考えられる。その場合、通信I/F部811は、例えばUSB等のインタフェースを介してコンピュータ800に接続される。
The communication I /
表示装置813は、各種情報を表示するためのデバイスである。表示装置813の具体例としては、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ、ウェアラブル・デバイスのディスプレイ等が挙げられる。表示装置813は、コンピュータ800の外部に設けられても良い。その場合、表示装置813は、例えばディスプレイケーブル等を介してコンピュータ800に接続される。また、入力I/F部807としてタッチパネルが採用される場合には、表示装置813は、入力I/F部807と一体化して構成することが可能である。
The
音声入力装置817は、マイクなどの音声を検出するための入力装置である。音声入力装置817は、例えば、音声信号を含めたアナログ振動信号を取得する単一または複数のマイクロフォン(マイクアレイ)、アナログ振動信号を増幅するアンプ、アナログ振動信号をデジタル信号に変換するA/D変換部などを備える。音声入力装置817は、例えば、ユーザが発する音声を検出する。
The
音声出力装置819は、音声を出力するための出力装置であり、例えば、スピーカなどである。また音声出力装置819は、ヘッドフォンまたはイヤフォンに音をステレオ再生するための装置であってもよい。
The
なお、本実施形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。 It should be noted that the present embodiment is an example for explaining the present invention, and is not intended to limit the present invention to only the embodiment thereof. Further, the present invention can be modified in various ways as long as it does not deviate from the gist thereof. Further, those skilled in the art can adopt an embodiment in which each element described below is replaced with an equal one, and such an embodiment is also included in the scope of the present invention.
[変形例]
なお、本発明を上記実施形態に基づいて説明してきたが、以下のような場合も本発明に含まれる。
[Modification example]
Although the present invention has been described based on the above embodiment, the following cases are also included in the present invention.
[変形例1]
上記実施形態に係る記録装置100おける各構成の少なくとも一部は、ユーザ端末200またはサーバ装置(不図示)に搭載させる議事録作成システム1専用のプログラムが備えてもよい。例えば、このプログラムに、記録装置100の制御部110の各機能部や音声取得部130を備えさせて、出力部150に関してはユーザ端末200に標準的に備える機能を利用して、ユーザ端末200で全て実現してもよい。また、この際、制御部110の各機能部の中で比較的処理負荷の高い信頼度算出部118、推定部119または精度算定部120などはサーバ装置に搭載させてもよい。ユーザ端末200は、サーバ装置のこれらの機能に対する処理の指示と指示に対する処理結果を受け取るだけとしてもよい。
[Modification 1]
At least a part of each configuration in the
[変形例2]
上記実施形態では、第1テキスト情報と第2テキスト情報とが不一致だった区間について、どちらのテキスト情報を第1発話者の発話の記録、すなわち議事録として採用するかユーザに選択させる例を示したが、これに限定されない。議事録作成システム1では、第1認識結果および第2認識結果それぞれの認識精度などに基づいて、自動的にどちらを採用するか選択してもよい。
[Modification 2]
In the above embodiment, an example is shown in which the user is allowed to select which text information is to be adopted as the record of the utterance of the first speaker, that is, the minutes of the section where the first text information and the second text information do not match. However, it is not limited to this. In the
制御部110は、選択部(不図示)を備える。選択部は、第1テキスト情報と第2テキスト情報とが比較部113による比較結果で不一致だった区間について、信頼度または認識精度の少なくともいずれかに基づいて、第1テキスト情報と第2テキスト情報のいずれを第1発話者の発話の記録として採用するかを選択する。
選択部は、例えば、信頼度の高い方のテキスト情報を第1発話者の発話の記録として選択してもよい。
The
For example, the selection unit may select the text information having the higher reliability as the record of the utterance of the first speaker.
記録生成部114は、例えば、選択部による選択結果に基づいて、第1テキスト情報と第2テキスト情報とを区間ごとに組み合わせて、記録データを生成してもよい。
The
上記構成によれば、第1テキスト情報と第2テキスト情報のいずれかを選択する手間をユーザは省くことができるため、効率よく発話の記録を生成することができる。 According to the above configuration, the user can save the trouble of selecting either the first text information or the second text information, so that the utterance record can be efficiently generated.
[変形例3]
上記実施形態では示していないが、復唱モードが設定された場合、第2発話者が復唱している際に、精度算定部120は、第2音声取得部132が取得した第2音声データの第2音声の認識精度を随時算出してもよい。そして表示部116が、算出された認識精度をユーザ端末200に随時表示させてもよい。このような構成によれば、表示部116は、第2発話者が復唱している際に、タイムリーにその第2音声の認識精度を表示させることができる。このため、上記構成によれば、第2発話者は、例えば、自身の音量や記録装置100との距離をより精度よく認識できるよう見直しつつ、復唱することができる。
[Modification 3]
Although not shown in the above embodiment, when the repeat mode is set, when the second speaker is reciting, the
1…議事録作成システム、100…記録装置、110…制御部、111…音声認識部、112…認識結果取得部、113…比較部、114…記録生成部、115…発話データ生成部、116…表示部、117…受付部、118…信頼度算出部、119…推定部、120…精度算定部、121…音声データ生成部、122…加工部、130…音声取得部、131…第1音声取得部、132…第2音声取得部、140…通信部、150…出力部、151…再生部、160…記憶部、200…ユーザ端末、300…音声認識システム、800…コンピュータ、801…プロセッサ、803…メモリ、805…記憶装置、807…入力I/F部、809…データI/F部、811…通信I/F部、813…表示装置、817…音声入力装置、819…音声出力装置。 1 ... Minutes creation system, 100 ... Recording device, 110 ... Control unit, 111 ... Voice recognition unit, 112 ... Recognition result acquisition unit, 113 ... Comparison unit, 114 ... Record generation unit, 115 ... Speech data generation unit, 116 ... Display unit, 117 ... reception unit, 118 ... reliability calculation unit, 119 ... estimation unit, 120 ... accuracy calculation unit, 121 ... voice data generation unit, 122 ... processing unit, 130 ... voice acquisition unit, 131 ... first voice acquisition Unit, 132 ... Second voice acquisition unit, 140 ... Communication unit, 150 ... Output unit, 151 ... Playback unit, 160 ... Storage unit, 200 ... User terminal, 300 ... Voice recognition system, 800 ... Computer, 801 ... Processor, 803 ... Memory, 805 ... Storage device, 807 ... Input I / F unit, 809 ... Data I / F unit, 811 ... Communication I / F unit, 813 ... Display device, 817 ... Voice input device, 819 ... Voice output device.
Claims (10)
前記第1音声を復唱する音声を取得するための復唱モードが設定された場合に、前記第1音声データに基づいて、前記第1音声を再生する再生部と、
前記復唱モードが設定された場合に、前記復唱する音声の音声データとして第2発話者による第2音声の第2音声データを取得する第2音声取得部と、
前記第1音声データと前記第2音声データとに基づいて、前記第1音声の第1認識結果を示す第1テキスト情報と、前記第2音声の第2認識結果を示す第2テキスト情報と、を取得する認識結果取得部と、
前記第1テキスト情報と前記第2テキスト情報とに基づいて、テキストによる前記第1発話者の発話の記録データを生成する記録生成部と、を備える、
情報処理装置。 The first voice acquisition unit that acquires the first voice data of the first voice by the first speaker, and
A reproduction unit that reproduces the first voice based on the first voice data when a repeat mode for acquiring the voice that repeats the first voice is set.
A second voice acquisition unit that acquires the second voice data of the second voice by the second speaker as the voice data of the voice to be repeated when the repeat mode is set.
Based on the first voice data and the second voice data, the first text information indicating the first recognition result of the first voice, the second text information indicating the second recognition result of the second voice, and the second text information. The recognition result acquisition unit to acquire
A record generation unit that generates recorded data of the utterance of the first speaker by text based on the first text information and the second text information is provided.
Information processing equipment.
前記認識結果取得部は、前記第1発話データと前記第2発話データに基づいて、前記複数の区間ごとに区分けされた前記第1テキスト情報と前記第2テキスト情報とを取得し、
前記情報処理装置は、前記複数の区間ごとに、前記第1テキスト情報と前記第2テキスト情報とを比較する比較部をさらに備え、
前記記録生成部は、前記比較部による比較結果に基づいて、前記記録データを生成する、
請求項1に記載の情報処理装置。 An utterance data generation unit that generates a plurality of first utterance data corresponding to a plurality of sections of the first voice data and a plurality of second utterance data corresponding to a plurality of sections of the second voice data from the voice data. , Further prepared,
The recognition result acquisition unit acquires the first text information and the second text information divided into each of the plurality of sections based on the first utterance data and the second utterance data.
The information processing apparatus further includes a comparison unit for comparing the first text information and the second text information for each of the plurality of sections.
The record generation unit generates the record data based on the comparison result by the comparison unit.
The information processing apparatus according to claim 1.
前記ユーザ端末から、前記複数の区間それぞれに対して、前記第1テキスト情報と前記第2テキスト情報のいずれを前記第1発話者の発話の記録として採用するかの選択を受け付ける受付部と、
前記記録生成部は、さらに前記受付部が受け付けた選択に基づいて、前記第1テキスト情報と第2テキスト情報とを前記区間ごとに組み合わせて、前記記録データを生成する、
請求項2に記載の情報処理装置。 A display unit that displays the comparison result on the user terminal of the user,
A reception unit that accepts from the user terminal the selection of whether to adopt the first text information or the second text information as a record of the utterance of the first speaker for each of the plurality of sections.
The record generation unit further combines the first text information and the second text information for each section based on the selection accepted by the reception unit to generate the record data.
The information processing apparatus according to claim 2.
前記表示部は、前記比較結果と併せて、前記ユーザ端末に前記信頼度を表示させる、
請求項3に記載の情報処理装置。 Further, a reliability calculation unit for calculating the reliability of each of the first recognition result and the second recognition result is provided.
The display unit causes the user terminal to display the reliability together with the comparison result.
The information processing apparatus according to claim 3.
前記第1音声の第1音量および前記第2音声の第2音量の組み合わせ、または前記第1距離および前記第2距離の組み合わせの少なくともいずれかの組み合わせに基づいて、前記第1認識結果および前記第2認識結果のそれぞれの認識精度を算定する精度算定部と、をさらに備え、
前記表示部は、前記比較結果と併せて、前記ユーザ端末に前記認識精度を表示させる、
請求項3または4に記載の情報処理装置。 Based on the first voice data and the second voice data, the first distance between the first speaker and the information processing device and the second distance between the second speaker and the information processing device. 2 distances, an estimation unit that estimates, and
The first recognition result and the first recognition result based on at least one combination of the first volume of the first voice and the second volume of the second voice, or the combination of the first distance and the second distance. 2 Further equipped with an accuracy calculation unit that calculates the recognition accuracy of each recognition result.
The display unit causes the user terminal to display the recognition accuracy together with the comparison result.
The information processing apparatus according to claim 3 or 4.
前記受付部は、前記ユーザ端末から、前記編集フォームに対して前記ユーザが入力したテキスト情報を受け付けて、
前記記録生成部は、前記不一致だった前記区間について、前記受付部が受け付けたテキスト情報で前記第1テキスト情報または前記第2テキスト情報を上書きして、前記記録データを生成する、
請求項5に記載の情報処理装置。 The display unit provides an edit form for editing the first text information or the second text information of the section for the section in which the first text information and the second text information do not match in the comparison result. Display it on the user terminal
The reception unit receives the text information input by the user for the edit form from the user terminal, and receives the text information.
The record generation unit generates the record data by overwriting the first text information or the second text information with the text information received by the reception unit for the inconsistent section.
The information processing apparatus according to claim 5.
前記第1音声の第1音量および前記第2音声の第2音量の組み合わせ、または前記第1距離および前記第2距離の組み合わせの少なくともいずれかの組み合わせに基づいて、前記第1認識結果および前記第2認識結果のそれぞれの認識精度を算定する精度算定部と、
前記第1認識結果および前記第2認識結果それぞれの信頼度を算出する信頼度算出部と、
前記第1テキスト情報と前記第2テキスト情報とが前記比較結果で不一致だった前記区間について、前記信頼度または前記認識精度の少なくともいずれかに基づいて、前記第1テキスト情報と第2テキスト情報のいずれを前記第1発話者の発話の記録として採用するかを選択する選択部と、
前記記録生成部は、さらに前記選択部による選択結果に基づいて、前記第1テキスト情報と第2テキスト情報とを前記区間ごとに組み合わせて、前記記録データを生成する、
請求項2に記載の情報処理装置。 An estimation unit that estimates a first distance between the first speaker and the information processing device and a second distance between the second speaker and the information processing device.
The first recognition result and the first recognition result based on at least one combination of the first volume of the first voice and the second volume of the second voice, or the combination of the first distance and the second distance. 2 The accuracy calculation unit that calculates the recognition accuracy of each recognition result,
A reliability calculation unit that calculates the reliability of each of the first recognition result and the second recognition result,
With respect to the section in which the first text information and the second text information do not match in the comparison result, the first text information and the second text information are based on at least one of the reliability or the recognition accuracy. A selection unit that selects which one is to be adopted as the record of the utterance of the first speaker, and
The record generation unit further combines the first text information and the second text information for each section based on the selection result by the selection unit to generate the record data.
The information processing apparatus according to claim 2.
前記第1音声データおよび前記第3音声データを、前記第1音声と前記第3音声とをステレオフォニック再生するためのステレオ音声データに加工する加工部と、
前記再生部は、前記ステレオ音声データに基づいて、前記復唱モードが設定された場合に、前記第1音声の再生をする代わりに、前記ステレオフォニック再生をする、
請求項1から7のいずれか一項に記載の情報処理装置。 A voice data generation unit that generates a third voice data for outputting a third voice based on the first text information by using a voice synthesis process.
A processing unit that processes the first audio data and the third audio data into stereo audio data for stereophonically reproducing the first audio and the third audio.
When the repeat mode is set, the reproduction unit performs the stereophonic reproduction instead of the reproduction of the first audio based on the stereo audio data.
The information processing apparatus according to any one of claims 1 to 7.
第1発話者による第1音声の第1音声データを取得する第1音声機能と、
前記第1音声を復唱する音声を取得するための復唱モードが設定された場合に、前記第1音声データに基づいて、前記第1音声を再生する再生機能と、
前記復唱モードが設定された場合に、前記復唱する音声の音声データとして第2発話者による第2音声の第2音声データを取得する第2音声取得機能と、
前記第1音声データと前記第2音声データとに基づいて、前記第1音声の第1認識結果を示す第1テキスト情報と、前記第2音声の第2認識結果を示す第2テキスト情報と、を取得する認識結果取得機能と、
前記第1テキスト情報と前記第2テキスト情報とに基づいて、テキストによる前記第1発話者の発話の記録データを生成する記録生成機能と、を実現させる、
プログラム。 On the computer
The first voice function to acquire the first voice data of the first voice by the first speaker, and
A reproduction function for reproducing the first voice based on the first voice data when a repeat mode for acquiring the voice for reciting the first voice is set.
A second voice acquisition function that acquires the second voice data of the second voice by the second speaker as the voice data of the voice to be repeated when the repeat mode is set.
Based on the first voice data and the second voice data, the first text information indicating the first recognition result of the first voice, the second text information indicating the second recognition result of the second voice, and the second text information. With the recognition result acquisition function to acquire
A record generation function for generating recorded data of the utterance of the first speaker by text based on the first text information and the second text information is realized.
program.
第1発話者による第1音声の第1音声データを取得し、
前記第1音声を復唱する音声を取得するための復唱モードが設定された場合に、前記第1音声データに基づいて、前記第1音声を再生し、
前記復唱モードが設定された場合に、前記復唱する音声の音声データとして第2発話者による第2音声の第2音声データを取得し、
前記第1音声データと前記第2音声データとに基づいて、前記第1音声の第1認識結果を示す第1テキスト情報と、前記第2音声の第2認識結果を示す第2テキスト情報と、を取得し、
前記第1テキスト情報と前記第2テキスト情報とに基づいて、テキストによる前記第1発話者の発話の記録データを生成する、
情報処理方法。 The computer
Acquire the first voice data of the first voice by the first speaker,
When the repeat mode for acquiring the voice to repeat the first voice is set, the first voice is reproduced based on the first voice data.
When the repeat mode is set, the second voice data of the second voice by the second speaker is acquired as the voice data of the voice to be repeated.
Based on the first voice data and the second voice data, the first text information indicating the first recognition result of the first voice, the second text information indicating the second recognition result of the second voice, and the second text information. To get,
Based on the first text information and the second text information, the recorded data of the utterance of the first speaker by text is generated.
Information processing method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020154373A JP2022048516A (en) | 2020-09-15 | 2020-09-15 | Information processing unit, program and information processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020154373A JP2022048516A (en) | 2020-09-15 | 2020-09-15 | Information processing unit, program and information processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022048516A true JP2022048516A (en) | 2022-03-28 |
Family
ID=80844387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020154373A Pending JP2022048516A (en) | 2020-09-15 | 2020-09-15 | Information processing unit, program and information processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022048516A (en) |
-
2020
- 2020-09-15 JP JP2020154373A patent/JP2022048516A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11699456B2 (en) | Automated transcript generation from multi-channel audio | |
US10204614B2 (en) | Audio scene apparatus | |
TW201926079A (en) | Bidirectional speech translation system, bidirectional speech translation method and computer program product | |
EP3754961A1 (en) | Post-teleconference playback using non-destructive audio transport | |
JP5750380B2 (en) | Speech translation apparatus, speech translation method, and speech translation program | |
US10409547B2 (en) | Apparatus for recording audio information and method for controlling same | |
JP2018106148A (en) | Multiplex speaker-speech-recognition correction system | |
WO2005069171A1 (en) | Document correlation device and document correlation method | |
WO2020155490A1 (en) | Method and apparatus for managing music based on speech analysis, and computer device | |
EP2826261B1 (en) | Spatial audio signal filtering | |
JP2006301223A (en) | System and program for speech recognition | |
JP5099211B2 (en) | Voice data question utterance extraction program, method and apparatus, and customer inquiry tendency estimation processing program, method and apparatus using voice data question utterance | |
JP6314837B2 (en) | Storage control device, reproduction control device, and recording medium | |
JP2000207170A (en) | Device and method for processing information | |
JP2020064300A (en) | Memorandum creation system, memorandum creation method, and program of log management server for memorandum creation system | |
JP2022048516A (en) | Information processing unit, program and information processing method | |
US20140324418A1 (en) | Voice input/output device, method and programme for preventing howling | |
CN114501297A (en) | Audio processing method and electronic equipment | |
JP2000206987A (en) | Voice recognition device | |
CN113299309A (en) | Voice translation method and device, computer readable medium and electronic equipment | |
WO2021134284A1 (en) | Voice information processing method, hub device, control terminal and storage medium | |
KR102472921B1 (en) | User interfacing method for visually displaying acoustic signal and apparatus thereof | |
JP7344612B1 (en) | Programs, conversation summarization devices, and conversation summarization methods | |
CN114242120B (en) | Audio editing method and audio marking method based on DTMF technology | |
KR102185183B1 (en) | a broadcast closed caption generating system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230630 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240318 |