JP2021076729A

JP2021076729A - 書き起こし支援方法及び書き起こし支援装置

Info

Publication number: JP2021076729A
Application number: JP2019203694A
Authority: JP
Inventors: 匡哲雨貝; Masatetsu Amagai
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2021-05-20
Anticipated expiration: 2039-11-11
Also published as: JP7304269B2

Abstract

【課題】音声認識結果の修正作業を、ユーザ視点に合わせて効率化し、当該コストを低減可能とする。【解決手段】書き起こし支援装置１００において、音声認識対象となる音声データを保持する記憶装置１０１と、音声データに対する音声認識処理により得た単語区切りのテキストと、音声データにおける単語の再生開始時間とを対応付けて記憶装置に格納する処理、及びテキストを画面表示させた状態で、ユーザから単語単位での再生指定を受け付けた場合、当該単語から始まる音声データを記憶部から読み出して予め定めた規定回数でリピート再生する処理を実行する演算装置１０４を含む。【選択図】図２

Description

本発明は、書き起こし支援方法及び書き起こし支援装置に関するものであり、具体的には、音声認識結果の修正作業を、ユーザ視点に合わせて効率化し、当該コストを低減可能とする技術に関する。

複数人が互いに意見を交わす状況は、参加者の規模、属性や場面に関わらず様々に存在する。そこで交わされた各自の意見等は、対応する話題の結論やそこに至る経緯の確かな根拠として大きな意味を持ってくる。

そこで、上述のように対話を行った各自の発言を記録し、電子データとして管理するための従来技術が存在する。例えば、電話を介した通話を記録するとともに、前記通話に伴うオペレータ業務を支援する、オペレータ業務支援システムであって、音声データをステレオ形式で記憶する音声記憶部と、前記通話のオペレータの音声であるオペレータ音声をステレオの一方のチャネルに割り当て、前記オペレータの通話相手の音声であるユーザ音声をステレオの他方のチャネルに割り当てて、前記音声記憶部に記憶する録音部と、テキストデータと開始時間と終了時間とを対応付けて記憶する音声認識結果記憶部と、前記オペレータ音声を認識してテキストデータに変換すると共に、認識において区切られた文単位に開始時間と終了時間とを付加して、前記音声認識結果記憶部に記憶するオペレータ音声認識部と、前記音声認識結果記憶部に記憶されたテキストデータを文単位に表示し、前記音声記憶部に記憶された音声を再生する出力部と、前記オペレータの操作を受け付ける入力部とを備え、前記出力部は、前記入力部がテキストデータの指定を受け付けると、前記音声記憶部に記憶された音声について、前記音声認識結果記憶部に記憶された前記テキストデータに対応する開始時間と終了時間との間の音声を再生するものであるオペレータ業務支援システム（特許文献１参照）などが提案されている。

特開２００９−３１８１０号公報

上述の従来技術の如く、音声認識結果を利活用する概念は存在し、いわわゆる「音声書き起こし」のパッケージ製品も従来から提案されている。しかしながら、導入コストが小さくない一方で、ユーザに相応の煩わしさを要求するという問題が残されていた。

例えば、会議参加者それぞれに音声認識訓練用の事前発話が必要であるにもかかわらず、良好な認識精度が期待しにくいという問題があった。その場合、結局のところ音声認識結果の修正業務が膨大に発生することになる。
そこで本発明の目的は、音声認識結果の修正作業を、ユーザ視点に合わせて効率化し、当該コストを低減可能とする技術を提供することにある。

上記課題を解決する本発明の書き起こし支援方法は、情報処理装置が、音声データに対する音声認識処理により得た単語区切りのテキストと、前記音声データにおける前記単語の再生開始時間とを対応付けて記憶装置に格納する処理と、前記テキストを画面表示させた状態で、ユーザから単語単位での再生指定を受け付けた場合、当該単語から始まる音声
データを記憶装置から読み出して予め定めた規定回数でリピート再生する処理とを実行する、ことを特徴とする。

また、本発明の書き起こし支援装置は、音声認識対象となる音声データを保持する記憶装置と、前記音声データに対する音声認識処理により得た単語区切りのテキストと、前記音声データにおける前記単語の再生開始時間とを対応付けて記憶装置に格納する処理、及び前記テキストを画面表示させた状態で、ユーザから単語単位での再生指定を受け付けた場合、当該単語から始まる音声データを記憶部から読み出して予め定めた規定回数でリピート再生する処理、を実行する演算装置と、を含むことを特徴とする。

本発明によれば、音声認識結果の修正作業を、ユーザ視点に合わせて効率化し、当該コストを低減可能となる。

本実施形態の書き起こし支援装置を含むネットワーク構成図である。本実施形態における書き起こし支援装置のハードウェア構成例を示す図である。本実施形態における監査装置のハードウェア構成例を示す図である。本実施形態における集音装置のハードウェア構成例を示す図である。本実施形態の音声データＤＢのデータ構成例を示す図である。本実施形態の認識結果ＤＢのデータ構成例を示す図である。本実施形態の修正履歴ＤＢのデータ構成例を示す図である。本実施形態の制御条件のデータ構成例を示す図である。本実施形態の音声データの構成例を示す図である。本実施形態における書き起こし支援方法のフロー例１を示す図である。本実施形態における書き起こし支援方法のフロー例２を示す図である。本実施形態における書き起こし支援方法のフロー例３を示す図である。本実施形態における画面例を示す図である。本実施形態における画面例を示す図である。本実施形態における画面例を示す図である。本実施形態における画面例を示す図である。本実施形態における画面例を示す図である。

−−−ネットワーク構成−−−

以下に本発明の実施形態について図面を用いて詳細に説明する。図１は、本実施形態の書き起こし支援装置１００を含むネットワーク構成図である。図１に示す書き起こし支援装置１００は、音声認識結果の修正作業を、ユーザ視点に合わせて効率化し、当該コストを低減可能とするコンピュータ装置である。

本実施形態の書き起こし支援装置１００は、インターネットやＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）などの適宜なネットワーク１を介して、監査装置２００、集音装置３００、及びユーザ端末４００と通信可能に接続されている。

書き起こし支援装置１００は、例えば、数多くの会議が頻繁に開催され、その議事録作成が必要とされている企業、または、そうした企業に対して議事録の書き起こし支援サービスを提供するサービス事業者、などが運用するサーバ装置を想定できる。

詳細は後述するが、この書き起こし支援装置１００は、集音装置３００から得た音声データ（例：会議等での各参加者の発話を集音して得たデータ）を音声認識にてテキスト化し、これに関して所定の処理を行い、監査装置２００やユーザ端末４００に提供することとなる。

なお、上述の音声データは、音声データＤＢ１２５に格納される。また、音声データの認識結果であるテキストは、認識結果ＤＢ１２６に格納される。また、テキストが音声データとともに適宜な形態にてユーザ端末４００に配信され、ユーザによる修正を受けた結果については修正履歴ＤＢ１２７に格納される。

また、監査装置２００は、上述の企業に対する監査を行う監査機関が運用する情報処理装置である。この監査装置２００は、書き起こし支援装置１００から、例えば、経営層による重要会議や株主総会等の議事録を監査用の情報として取得することとなる。
また、集音装置３００は、上述の企業内で利用されている装置であり、例えば、会議室にて所定数が配置されているものとする。

また、ユーザ端末４００は、上述の企業における議事録作成業務の担当者等が操作する情報処理装置である。すなわち、ユーザ端末４００は、書き起こし支援装置１００から、会議の音声データの音声認識結果たるテキストについて情報を取得し、対応する音声データの適宜な再生を行いつつ、担当者らによる上述のテキストの修正を受け付ける端末となる。
−−−ハードウェア構成−−−

図２に、本実施形態の書き起こし支援装置１００のハードウェア構成例を示す。本実施形態の書き起こし支援装置１００のハードウェア構成は以下の如くとなる。

すなわち書き起こし支援装置１００は、記憶装置１０１、メモリ１０３、演算装置１０４、入力装置１０５、出力装置１０６、および通信装置１０７を備えている。
このうち記憶装置１０１は、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。
また、メモリ１０３は、ＲＡＭなど揮発性記憶素子で構成される。

また、演算装置１０４は、記憶装置１０１に保持されるプログラム１０２をメモリ１０３に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうＣＰＵである。
また、通信装置１０５は、ネットワーク１と接続して他装置との通信処理を担うネットワークインターフェイスカードである。

なお、書き起こし支援装置１００は、スタンドアロンマシンとして稼働するのであれば、ユーザ（例：上述の担当者等）からのキー入力やマウス操作を受け付ける、キーボードやマウスなどの適宜な入力装置を備えるとしてもよい。同様に、演算装置１０４での処理データの表示を行うディスプレイ等の適宜な出力装置を備えるとしてもよい。

また、記憶装置１０１内には、本実施形態の書き起こし支援装置として必要な機能を実装する為のプログラム１０２に加えて、音声データＤＢ１２５、認識結果ＤＢ１２６、及び修正履歴ＤＢ１２７が少なくとも記憶されている。ただし、これら各データベースの詳細は後述する。

また、プログラム１０２は、音声データからテキストを生成する音声認識エンジン１１０と、上述のテキストに対応する音声データをユーザ端末４００に配信し再生させる際の
制御条件１１１を保持しているものとする。

続いて、図３に本実施形態における監査装置２００のハードウェア構成例を示す。監査装置２００は、企業の監査業務を担う監査機関が運用する情報処理装置であり、対象企業での各種会議の議事録等を監査業務対象として管理、利用するものとなる。
こうした監査装置２００は、記憶装置２０１、メモリ２０３、演算装置２０４、入力装置２０５、出力装置２０６、および通信装置２０７を備えている。
このうち記憶装置２０１は、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。
また、メモリ２０３は、ＲＡＭなど揮発性記憶素子で構成される。

また、演算装置２０４は、記憶装置１０１に保持されるプログラム２０２をメモリ２０３に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうＣＰＵである。
また、入力装置２０５は、ユーザ（例：上述の担当者等）からのキー入力やマウス操作を受け付ける、キーボードやマウスである。
また、出力装置２０６は、演算装置１０４での処理データの表示を行うディスプレイ等の装置である。
また、通信装置２０７は、ネットワーク１と接続して書き起こし支援装置１００などとの通信処理を担うネットワークインターフェイスカードである。

なお、記憶装置２０１内には、本実施形態の監査装置として必要な機能を実装する為のプログラム２０２に加えて、監査情報ＤＢ２２５が少なくとも記憶されている。ただし、この監査情報ＤＢ２２５の詳細は後述する。
続いて、図４に本実施形態の集音装置３００のハードウェア構成例を示す。本実施形態の集音装置３００のハードウェア構成は以下の如くとなる。

すなわち集音装置３００は、記憶装置３０１、メモリ３０３、演算装置３０４、入力装置３０５、出力装置３０６、通信装置３０７、及びマイク３０６を備えている。
このうち記憶装置３０１は、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。
また、メモリ３０３は、ＲＡＭなど揮発性記憶素子で構成される。

また、演算装置３０４は、記憶装置３０１に保持されるプログラム３０２をメモリ３０３に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうＣＰＵである。
また、入力装置３０５は、ユーザからのキー入力やマウス操作、ボタン操作などを受け付ける、キーボードやマウス、ボタンなどの適宜な装置である。
また、出力装置３０６は、演算装置３０４での処理データの表示を行うディスプレイ等の適宜な装置である。
また、通信装置３０７は、ネットワーク１と接続して書き起こし支援装置１００など他装置との通信処理を担うネットワークインターフェイスカードである。

また、マイク３０８は、事業者の会議等の出席者の発言を録音するためのマイクロフォンである。マイク３０８で集音された音声データは、記憶装置３０１の音声データ３２５として格納されることになる。

なお、記憶装置３０１内には、本実施形態の集音装置３００として必要な機能を実装する為のプログラム３０２に加えて、上述の音声データ３２５が少なくとも記憶されている。ただし、この音声データ３２５の詳細は後述する。
−−−データ構造例−−−
続いて、本実施形態の書き起こし支援装置１００が用いるテーブル類について説明する。図５に、本実施形態における音声データＤＢ１２５の一例を示す。

音声データＤＢ１２５は、集音装置３００から得た音声データを蓄積したデータベースである。そのデータ構造は、音声データの識別番号をキーとして、当該音声データを生成した集音装置３００の識別情報（図中では“マイク＃”）、当該集音装置３００を使用した発話者の識別情報、集音日時、及び音声データファイル、といったデータから成るレコードの集合体である。

続いて、図６に本実施形態の認識結果ＤＢ１２６のデータ構成例を示す。本実施形態の認識結果ＤＢ１２６は、上述の音声データＤＢ１２５に格納されている音声データについて音声認識処理を行って得たテキストを蓄積したデータベースである。

そのデータ構造は、音声データの識別情報をキーとして、集音装置３００の識別情報、発話者の識別情報、時間帯毎の文字列（テキスト）、といったデータから成るレコードの集合体である。

また、図７に本実施形態の修正履歴ＤＢ１２７のデータ構成例を示す。本実施形態の修正履歴ＤＢ１２７は、上述の認識結果ＤＢ１２６で保持するテキストに対して、議事録作成業務の担当者らがユーザ端末４００を操作し修正を行った履歴を蓄積したデータベースである。

そのデータ構造は、音声データの識別情報をキーとして、集音装置３００の識別情報、発話者の識別情報、修正の版ナンバー（図中では“Ｒｅｖ．０”〜）、修正担当者の識別情報、修正対象のテキストと修正内容（図中では下線部分）、といったデータから成るレコードの集合体である。

また、図８に本実施形態の制御条件１１１のデータ構成例を示す図である。本実施形態の制御条件１１１は、上述の担当者らによるテキストの修正作業を受ける際、これに伴って再生する音声データの出力形態を制御する条件を規定したテーブルである。

そのデータ構造は、条件をキーとして、当該条件に対応した制御内容たる、リピート回数、再生速度、及び音量、といったデータから成るレコードの集合体である。

また、図９に本実施形態の音声データ３２５の構成例を示す。本実施形態の音声データ３２５は、集音装置３００が自身で保持しているデータであり、マイク３０８で捉えた発話の音声データである。

そのデータ構造は、音声データの識別情報をキーとして、発話者の識別情報、集音日時、及び音声データファイル、といったデータから成るレコードの集合体である。
＜フロー例：メインフロー＞

以下、本実施形態における書き起こし支援方法の実際手順について図に基づき説明する。以下で説明する書き起こし支援方法に対応する各種動作は、書き起こし支援装置１００がメモリ等に読み出して実行するプログラムによって実現される。そして、このプログラムは、以下に説明される各種の動作を行うためのコードから構成されている。

図１０は、本実施形態における書き起こし支援方法のフロー例１を示す図である。ここで、ある企業において会議が開催され、その参加者それぞれの発言を、集音装置３００が
録音して音声データ３２５を生成しているものとする。また、集音装置３００は、その入力装置３０５により、当該集音装置３００の使用者たる発話者の情報を受け付けて、これを音声データ３２５に紐付けるものとする。

そこで、書き起こし支援装置１００は、集音装置３００にリクエストするなどして音声データ３２５を取得し、これを音声データＤＢ１２５に格納する（ｓ５）。この音声データ３２５は、図９で例示したように、音声データの実体（ファイル）に加えて、当該音声データを一意に特定する識別情報、音声データの録音を行った集音装置３００の使用者たる発話者、録音日時（録音開始から終了までの間の時間帯）、といったメタデータを含んでいるものとする。

また、書き起こし支援装置１００は、ｓ５で得た音声データを音声データＤＢ１２５から抽出して、音声認識エンジン１１０に入力し、単語区切りのテキストを生成する（ｓ１０）。なお、ここで生成したテキストは、対応する音声データの識別情報等と対応付けて、認識結果ＤＢ１２６に格納される。

なお、単語区切りのテキストとは、例えば、「これはあなたの荷物ですか」という元の文章を、「これ」、「は」、「あなた」、「の」、「荷物」、「です」、「か」、という最小単位の単語で区切って構成したテキストとなる。

続いて、書き起こし支援装置１００は、ｓ１０で得て認識結果ＤＢ１２６に格納した単語区切りのテキストに対し、その元となった音声データの録音時間帯の情報（ｓ５で得たメタデータに含まれる）を紐付ける（ｓ１１）。ここまでの処理で、認識結果ＤＢ１２６における、１つの音声データに関するレコードが完成する。

続いて、書き起こし支援装置１００は、例えば、ユーザ端末４００から、音声認識結果たるテキストの確認要求を受信したことに応じて（或いは、ｓ１１の実行完了をもって自動的に）、当該確認要求が指定する音声データ（集音装置３００の識別情報や日時の情報でもって指定されたもの）の認識結果たるテキストを、認識結果ＤＢ１２６から抽出し、これをユーザ端末４００に配信し出力（図１３の画面９００参照）させる（ｓ１２）。

図１３の画面９００で例示する表示形態は、或る時間帯に指定の集音装置３００で録音された音声データに関して得られた単語区切りのテキスト９０１が、発話者の情報９０２と紐付いた形で時系列順にチャット形式で表示されたものとなっている。

なお、書き起こし支援装置１００は、こうした画面９００でのテキストの表示に際し、当該テキストに含まれる単語のうち確信度が所定の基準以下のものに関して、下線９０３（図１３参照）や特定の文字色を設定するといった強調表示を行うものとする（ｓ１３）。

この表示制御は、上述のとおり確信度をベースに行う。確信度とは、いわゆる単語の信頼度であり、音声認識結果をどれだけ信頼してよいかを示す尺度となる。その値の範囲は、０〜１である。この確信度の値が１に近いほど、その単語に似たスコアを持つ他候補が存在しなかったことを示す。一方、確信度の値が０に近いほど、その単語と同程度のスコアをもつ他候補が多く出現したことを示す。

よって、確信度の値が高いほど、その音声認識結果の一位候補の単語に近い他の候補が出現しておらず、音声認識エンジン１１０が「確信」をもって当該音声認識結果を出力したこととなる。確信度の値は、例えば音声認識エンジン１１０が生成し、これを書き起こし支援装置１００が利用可能であるとする。

本実施形態では特に図示しないが、例えば、認識結果ＤＢ１２６の各レコードにおけるテキスト（音声認識結果）が含む各単語について、その確信度の値と、他候補の単語（音声認識エンジン１１０が確信度として次点以下とした各単語）のリストとが、記憶装置１０１にて別途管理されているものとする。そのため、書き起こし支援装置１００の音声認識エンジン１１０は、音声認識処理に際し、確信度の算定および上述のリストの生成も行っているものとする。

続いて、書き起こし支援装置１００は、図１３のようにテキストを画面表示させた状態で、ユーザ端末４００から、単語単位での音声データの再生指定を受け付け（ｓ１４）、これに応じて、確信度等に基づく再生制御条件を特定する（ｓ１５）。

この場合、書き起こし支援装置１００は、制御条件１１１を参照し、ｓ１４で再生指定を受けた単語に関して適合する条件を特定することとなる。図８の制御条件１１１の例であれば、デフォルト、確信度＜０．３、低確信度単語との共起確率＞０．５、及び、再生指示＞３回、といった条件のいずれかが特定される。

上述の特定の結果、特段の条件に該当しない場合には、デフォルトの条件が特定され、音声データ再生のリピート回数（例：２回）、速度（例：１倍速すなわち発話速度と同じ）、及び音量、ともに通常の値を再生制御の条件とすることになる。

一方、上述の特定の結果、指定の単語の確信度が０．３より小さい場合、音声データ再生のリピート回数をデフォルト値から１回増、速度を２０％減、及び音量を１５％増、とした値を再生制御の条件とすることになる。

また、上述の特定の結果、指定の単語における低確信度単語との共起確率が０．５より大きい場合、音声データ再生のリピート回数をデフォルト値から２回増、速度を３０％減、及び音量を２５％増、とした値を再生制御の条件とすることになる。

また、上述の特定の結果、指定の単語に関する音声データの再生指示が、直近の所定時間内で通算３回より多い場合、音声データ再生のリピート回数をデフォルト値から３回増、速度を４０％減、及び音量を４０％増、とした値を再生制御の条件とすることになる。

続いて、書き起こし支援装置１００は、ｓ１５で特定した音声データの再生制御条件に基づいて、ユーザ端末４００にて音声データ（再生指定を受けた単語を先頭とした音声データ）を再生させる（ｓ１６）。

勿論、書き起こし支援装置１００が再生制御を行うケースのみならず、当該音声データとその再生制御条件の情報を書き起こし支援装置１００から配信されたユーザ端末４００が、自ら実行するとしてもよい。

この時、ユーザ端末４００を操作しているユーザは、図１３で示すごとき画面にてテキストを閲覧しつつ、ｓ１６で再生制御された音声データを聞いて、当該テキスト中で修正が必要な単語について確認、検討する。そこで、ユーザ端末４００は、上述のユーザによる、修正箇所の指定を受けた場合、その指定について書き起こし支援装置１００に通知することとなる。

書き起こし支援装置１００は、上述の通知を受け、上述のユーザ指定の修正箇所たる単語に関して、確信度順の候補リストを生成し、これをユーザ端末４００にてポップアップ表示させる（ｓ１７）。

図１４の画面９００では、カーソル９２５で修正箇所の単語９２６の指定がなされたことに応じて、候補リスト９３０がポップアップ表示された状況を示している。ここでは、修正画面９２０にて、テキスト９２１のうち「カラー」が修正箇所と指定され、その他の候補として確信度順に、「から」、「辛」、「空」、「殻」といった単語がリストアップされている。

なお、こうした候補リスト９３０のポップアップ表示の最中、ｓ１６で開始された音声データの再生は再生制御の条件次第で継続しており、例えば、リピート回数が残っていれば、書き起こし支援装置１００は、残り再生回数の通知９２７をユーザ端末４００に配信するとすれば好適である。

続いて、書き起こし支援装置１００は、上述の候補リスト９３０における各候補のうちから、ユーザが選択した単語の情報を、ユーザ端末４００から受け付けて、当該単語で、ユーザ指定の修正箇所（の既存単語）を置換する（ｓ１８）。つまり修正処理を行う。なお、書き起こし支援装置１００は、ｓ１８の処理に伴い、修正処理の結果を修正履歴ＤＢ１２７に格納し、リビジョン管理を行うものとする。

上述の修正処理を経たテキストについては、図１７の画面９００における表示欄９２０にて例示する。図１７の例では、オリジナルの音声認識結果を「Ｒｅｖ．０」として表示欄９１０に配置する一方、これと並列表示する形で、最初の修正結果を反映した音声認識結果を「Ｒｅｖ．１」として表示欄９２０に配置している。

続いて、書き起こし支援装置１００は、修正完了の未済について問い合わせする通知を、ユーザ端末４００に送信し、その返信に応じて当該テキストに関して修正が完了したか判定する（ｓ１９）。

上述の判定の結果、修正完了と判定した場合（ｓ１９：Ｙ）、書き起こし支援装置１００は、処理を終了する。一方、上述の判定の結果、修正未完と判定した場合（ｓ１９：Ｎ）、書き起こし支援装置１００は、当該テキストに関して、その音声データの追加再生が必要か問い合わせする通知（図１６の画面９００における通知９３５）を、ユーザ端末４００に送信し、その返信に応じて追加再生の要否を判定する（ｓ２０）。

上述の判定の結果、追加再生不要であった場合（ｓ２０：Ｎ）、書き起こし支援装置１００は、処理をｓ１４に遷移させる。一方、上述の判定の結果、追加再生要であった場合（ｓ２０：Ｙ）、書き起こし支援装置１００は、ｓ１５で特定した再生制御条件で定められた規定回数のリピート再生後、リピート回数の累積程度に応じて、対応する音声データの再生速度の低減および音量増大、の少なくともいずれかの出力制御を行うこととなる（ｓ２１）。この制御は、制御条件１１１における、「再生指示＞３回」といった再生指示回数に基づく制御条件に応じてなされる。書き起こし支援装置１００は、上述のｓ２１の処理の後、ｓ１７に処理を遷移させ、修正完了となるまでｓ１７〜ｓ１９を繰り返すこととなる。
＜フロー例：リビジョン管理＞

また図１１に、本実施形態における書き起こし支援方法のフロー例２を示す。ここでは、音声認識結果たるテキストの修正バージョンを管理する処理について説明する。書き起こし支援装置１００は、修正のリビジョンについて修正履歴ＤＢ１２７で管理し、図１３〜図１７で既に示したように、オリジナルの音声認識結果「Ｒｅｖ．０」と、例えば修正作業中のリビジョンとを並列表示する形でユーザ端末４００に配信している。

つまり、書き起こし支援装置１００は、ユーザによる修正操作を受け付ける際、未修正版つまりオリジナルの音声認識結果「Ｒｅｖ．０」と、修正操作を反映した修正版の音声認識結果（例えば、「Ｒｅｖ．１」）とを並列表示するデータをユーザ端末４００に配信し表示させる（ｓ２５）。

書き起こし支援装置１００は、この状態にて、修正版の音声認識結果に対するユーザ操作を受けて、単語修正の処理を実行し（ｓ２６）、修正履歴ＤＢ１２７にてリビジョン欄の値をカウントアップして該当情報をレコードとして格納する（ｓ２７、ｓ２８）。

なお、こうした修正操作を受ける際、書き起こし支援装置１００は、未修正版の音声認識結果については、例えばグレイアウト表示させ、ユーザ端末４００からの修正操作を受け付け不可とする表示制御を実行するものとする。

オリジナルの音声認識結果を修正不可とした形で起点にし、その修正版それぞれを修正履歴として管理することは、議事録等の監査業務に際し、修正内容の確からしさを担保し、恣意的修正の排除を確立することにつながる。
＜フロー例：重複削除支援＞

また図１２に、本実施形態における書き起こし支援方法のフロー例３を示す。ここでは、音声認識結果たるテキストの重複が生じた場合の対処処理について説明する。
この場合、書き起こし支援装置１００は、

各音声データのうち、発話開始から終了までの間に関して重複する時間帯が存在し、かつ、集音装置３００の識別情報が異なっているグループを特定する（ｓ３０）。

続いて、書き起こし支援装置１００は、上述のグループ中の各音声データに関して得ている音声認識結果たるテキストの各間について、当該テキストそれぞれの総単語数または総文字数をカウントする（ｓ３１）。

例えば、「これはあなたの荷物ですか」という比較元のテキストに関して言えば、総単語数は、「これ」、「は」、「あなた」、「の」、「荷物」、「です」、「か」の７、総文字数は１２、となる。また、「これは荷物です」という比較先のテキストに関して言えば、総単語数は、「これ」、「は」、「荷物」、「です」の４、総文字数は７、となる。

また、書き起こし支援装置１００は、ｓ３１で、比較元および比較先の各テキストについて得た総単語数のうち少ないもの（上述の例では「４」）における、当該テキストの間で一致する単語数の割合が所定の基準以上（例：０．４）となったテキストを特定する（ｓ３２）。上述の例であれば、一致する単語数は「４」、少ない総単語数は「４」であり、比較先のテキストは基準以上のテキストとして特定される。書き起こし支援装置１００は、こうした処理を、例えば、ユーザ指定の音声認識結果群に関して繰り返すこととなる。

上述のｓ３１の処理は、各テキストについて得た総文字数のうち少ないもの（上述の例では「７」）における、当該テキストの間で一致する文字数の割合が所定の基準以上となったテキストを特定するとしてもよい。

続いて、書き起こし支援装置１００は、上述のｓ３２で特定したテキストらのうち文字列が一番長いもの以外、または確信度が一番高いもの以外、を削除対象のテキストとして特定し（ｓ３３）、当該削除対象の情報をユーザ端末４００に出力する（ｓ３４）。
一方、ユーザ端末４００は、上述の削除対象の情報をディスプレイ等で表示し、その削除要否について担当者らによる指示を受け付けることとなる。

以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。

こうした本実施形態によれば、例えば、従来であれば大きな負担が必要であった、会議に伴う議事録や折衝記録の作成業務を適宜に効率化し、当該業務におけるコスト削減が可能となる。すなわち、音声認識結果の修正作業を、ユーザ視点に合わせて効率化し、当該コストを低減可能となる。

本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態の書き起こし支援方法において、前記情報処理装置が、前記リピート再生に際し、ユーザ指定の修正箇所である単語が、低確信度の単語の共起率が所定基準以上の文に含まれていることに応じ、前記音声データの再生回数の増加、再生速度の低減、および音量増大、の少なくともいずれかの出力制御を行う、としてもよい。

これによれば、誤認識の懸念もある単語について効率的なユーザ確認を促すこととなり、当該ユーザによる修正作業の精度向上が期待可能となる。ひいては、音声認識結果の修正作業を、ユーザ視点に合わせてより効率化し、当該コストを低減可能となる。

また、本実施形態の書き起こし支援方法において、前記情報処理装置が、前記修正箇所のユーザ指定を受けた場合、当該修正箇所たる単語の確信度順に候補リストをポップアップ表示し、当該候補リスト中から、ユーザによる単語選択を受け付け、前記修正箇所の単語をユーザ選択の単語に更新する、としてもよい。

これによれば、修正箇所の単語について、例えば、確信度の高い候補からユーザの認識対象としやすくなり、修正作業の大幅な効率化を図ることが可能となる。また、候補のリスト表示による一覧性向上により、確信度は低くとも当該ユーザにとって正解となる単語を容易に特定しやすくなる。ひいては、音声認識結果の修正作業を、ユーザ視点に合わせてより効率化し、当該コストを低減可能となる。

また、本実施形態の書き起こし支援方法において、前記情報処理装置が、前記リピート再生に際し、前記規定回数のリピート再生の後、当該単語についてさらなるユーザ操作を受けた場合、当該操作の回数の累積程度に応じて、前記音声データの再生速度の低減および音量増大、の少なくともいずれかの出力制御を行う、としてもよい。

これによれば、分かりにくい（聞き取りにくい）単語について、ユーザが再生を繰り返す或いは音量を大きくするなどして、何とか正確に聞き取りをする状況に効率的に対応し、ユーザ操作を低減して業務効率の改善を図ることが可能となる。ひいては、音声認識結果の修正作業を、ユーザ視点に合わせてより効率化し、当該コストを低減可能となる。

また、本実施形態の書き起こし支援方法において、前記情報処理装置が、前記ユーザ操作を受け付ける際、未修正版の音声認識結果と、修正操作を反映した修正版の音声認識結果とを並列表示し、前記未修正版については修正操作を受け付け不可とする表示制御を実行する、としてもよい。

これによれば、修正操作を行うユーザにおいて、ユーザ修正を受けていない当初の音声認識結果と、ユーザ修正内容が反映された音声認識結果とを比較しつつ、当該修正操作を行うことが可能となる。このことは、議事録等の監査対象となりうる音声認識結果に関し
て、その真正性の担保や恣意的修正の排除といった点で、ユーザの修正操作に一定の歯止めをかけ、より慎重で公正な修正が行われる状況につながりうる。或いは、ユーザが誤った又は確信無く修正を行ってしまっても、オリジナルの音声認識結果に立ち返って検討を行うことなども可能となる。ひいては、音声認識結果の修正作業を、ユーザ視点に合わせてより効率化し、当該コストを低減可能となる。

また、本実施形態の書き起こし支援方法において、前記情報処理装置が、前記未修正版を起点に各修正版を修正履歴として記憶装置にて保持する、としてもよい。

これによれば、議事録等の監査対象となりうる音声認識結果に関して、その真正性の担保や恣意的修正の排除といった点で、ユーザの修正操作に一定の歯止めをかけ、より慎重で公正な修正が行われる状況につながりうる。ひいては、音声認識結果の修正作業を、ユーザ視点に合わせてより効率化し、当該コストを低減可能となる。

また、本実施形態の書き起こし支援方法において、前記情報処理装置が、前記記憶装置において、前記単語区切りのテキストの起源となった各音声データの、発話開始及び発話終了の時刻情報と、集音をしたマイクデバイスの識別情報とを保持して、前記各音声データのうち、前記発話開始から前記発話終了までの間に関して重複する時間帯が存在し、かつ、前記マイクデバイスの識別情報が異なっているグループを特定する処理、前記グループ中の各音声データに関して得ている前記テキストの各間について、当該テキストそれぞれの総単語数または総文字数における、当該テキストの間で一致する単語数または文字数の割合が所定の基準以上となったテキスト群を特定する処理、及び前記テキスト群が含むテキストのうち文字列が一番長いもの以外を削除対象として特定し、当該削除対象の情報を出力する処理、をさらに実行する、としてもよい。

これによれば、同じ発話者による１つの発言を、異なる集音装置で同時に録音してしまった状況に的確に対処し、音声認識結果の重複を効率良く解消しうることにつながる。ひいては、音声認識結果の修正作業を、ユーザ視点に合わせてより効率化し、当該コストを低減可能となる。

また、本実施形態の書き起こし支援方法において、前記情報処理装置が、前記記憶装置において、前記単語区切りのテキストの確信度の情報と、前記テキストの起源となった各音声データの、発話開始及び発話終了の時刻情報と、集音をしたマイクデバイスの識別情報とを保持して、前記各音声データのうち、前記発話開始から前記発話終了までの間に関して重複する時間帯が存在し、かつ、前記マイクデバイスの識別情報が異なっているグループを特定する処理、前記グループ中の各音声データに関して得ている前記テキストの各間について、当該テキストそれぞれの総単語数、及び当該テキストの間で一致する単語数を算定する処理、前記テキストそれぞれの総単語数のうち少ないもので、前記一致する単語数を除算し、当該除算で得た値が予め定めた基準以上となったテキスト群を特定する処理、及び前記テキスト群が含むテキストのうち確信度が一番高いもの以外を削除対象として特定し、当該削除対象の情報を出力する処理、をさらに実行する、としてもよい。

また、本実施形態の書き起こし支援装置において、前記演算装置は、前記リピート再生に際し、ユーザ指定の修正箇所である単語が、低確信度の単語の共起率が所定基準以上の文に含まれていることに応じ、前記音声データの再生回数の増加、再生速度の低減、およ
び音量増大、の少なくともいずれかの出力制御を行うものである、としてもよい。

また、本実施形態の書き起こし支援装置において、前記演算装置は、前記修正箇所のユーザ指定を受けた場合、当該修正箇所たる単語の確信度順に候補リストをポップアップ表示し、当該候補リスト中から、ユーザによる単語選択を受け付け、前記修正箇所の単語をユーザ選択の単語に更新するものである、としてもよい。

また、本実施形態の書き起こし支援装置において、前記演算装置は、前記リピート再生に際し、前記規定回数のリピート再生の後、当該単語についてさらなるユーザ操作を受けた場合、当該操作の回数の累積程度に応じて、前記音声データの再生速度の低減および音量増大、の少なくともいずれかの出力制御を行うものである、としてもよい。

また、本実施形態の書き起こし支援装置において、前記演算装置は、前記ユーザ操作を受け付ける際、未修正版の音声認識結果と、修正操作を反映した修正版の音声認識結果とを並列表示し、前記未修正版については修正操作を受け付け不可とする表示制御を実行するものである、としてもよい。

また、本実施形態の書き起こし支援装置において、前記演算装置は、前記未修正版を起点に各修正版を修正履歴として記憶装置にて保持するものである、としてもよい。

また、本実施形態の書き起こし支援装置において、前記記憶装置は、前記単語区切りのテキストの起源となった各音声データの、発話開始及び発話終了の時刻情報と、集音をしたマイクデバイスの識別情報とを保持し、前記演算装置は、前記各音声データのうち、前記発話開始から前記発話終了までの間に関して重複する時間帯が存在し、かつ、前記マイクデバイスの識別情報が異なっているグループを特定する処理、前記グループ中の各音声データに関して得ている前記テキストの各間について、当該テキストそれぞれの総単語数または総文字数における、当該テキストの間で一致する単語数または文字数の割合が所定の基準以上となったテキスト群を特定する処理、及び前記テキスト群が含むテキストのうち文字列が一番長いもの以外を削除対象として特定し、当該削除対象の情報を出力する処理、をさらに実行するものである、としてもよい。

また、本実施形態の書き起こし支援装置において、前記記憶装置は、前記単語区切りのテキストの確信度の情報と、前記テキストの起源となった各音声データの、発話開始及び発話終了の時刻情報と、集音をしたマイクデバイスの識別情報とを保持し、前記演算装置は、前記各音声データのうち、前記発話開始から前記発話終了までの間に関して重複する時間帯が存在し、かつ、前記マイクデバイスの識別情報が異なっているグループを特定する処理、前記グループ中の各音声データに関して得ている前記テキストの各間について、当該テキストそれぞれの総単語数、及び当該テキストの間で一致する単語数を算定する処理、前記テキストそれぞれの総単語数のうち少ないもので、前記一致する単語数を除算し、当該除算で得た値が予め定めた基準以上となったテキスト群を特定する処理、及び前記テキスト群が含むテキストのうち確信度が一番高いもの以外を削除対象として特定し、当該削除対象の情報を出力する処理、をさらに実行するものである、としてもよい。

１ネットワーク
１０書き起こし支援システム
１００書き起こし支援装置
１０１記憶装置
１０２プログラム
１０３メモリ
１０４演算装置
１０５通信装置
１１０音声認識エンジン
１１１制御条件
１２５音声データＤＢ
１２６認識結果ＤＢ
１２７修正履歴ＤＢ
２００監査装置
２０１記憶装置
２０２プログラム
２０３メモリ
２０４演算装置
２０５入力装置
２０６出力装置
２０７通信装置
２２５監査情報ＤＢ
３００集音装置
３０１記憶装置
３０２プログラム
３０３メモリ
３０４演算装置
３０５入力装置
３０６出力装置
３０７通信装置
３０８マイク
３１０録音アプリ
３２５音声データ
４００ユーザ端末

Claims

情報処理装置が、
音声データに対する音声認識処理により得た単語区切りのテキストと、前記音声データにおける前記単語の再生開始時間とを対応付けて記憶装置に格納する処理と、
前記テキストを画面表示させた状態で、ユーザから単語単位での再生指定を受け付けた場合、当該単語から始まる音声データを記憶装置から読み出して予め定めた規定回数でリピート再生する処理とを実行する、
書き起こし支援方法。
前記情報処理装置が、
前記リピート再生に際し、ユーザ指定の修正箇所である単語が、低確信度の単語の共起率が所定基準以上の文に含まれていることに応じ、前記音声データの再生回数の増加、再生速度の低減、および音量増大、の少なくともいずれかの出力制御を行う、
ことを特徴とする請求項１に記載の書き起こし支援方法。
前記情報処理装置が、
前記修正箇所のユーザ指定を受けた場合、当該修正箇所たる単語の確信度順に候補リストをポップアップ表示し、当該候補リスト中から、ユーザによる単語選択を受け付け、前記修正箇所の単語をユーザ選択の単語に更新する、
ことを特徴とする請求項２に記載の書き起こし支援方法。
前記情報処理装置が、
前記リピート再生に際し、前記規定回数のリピート再生の後、当該単語についてさらなるユーザ操作を受けた場合、当該操作の回数の累積程度に応じて、前記音声データの再生速度の低減および音量増大、の少なくともいずれかの出力制御を行う、
ことを特徴とする請求項１に記載の書き起こし支援方法。
前記情報処理装置が、
前記ユーザ操作を受け付ける際、未修正版の音声認識結果と、修正操作を反映した修正版の音声認識結果とを並列表示し、前記未修正版については修正操作を受け付け不可とする表示制御を実行する、
ことを特徴とする請求項４に記載の書き起こし支援方法。
前記情報処理装置が、
前記未修正版を起点に各修正版を修正履歴として記憶装置にて保持する、
ことを特徴とする請求項５に記載の書き起こし支援方法。
前記情報処理装置が、
前記記憶装置において、前記単語区切りのテキストの起源となった各音声データの、発話開始及び発話終了の時刻情報と、集音をしたマイクデバイスの識別情報とを保持して、
前記各音声データのうち、前記発話開始から前記発話終了までの間に関して重複する時間帯が存在し、かつ、前記マイクデバイスの識別情報が異なっているグループを特定する処理、前記グループ中の各音声データに関して得ている前記テキストの各間について、当該テキストそれぞれの総単語数または総文字数における、当該テキストの間で一致する単語数または文字数の割合が所定の基準以上となったテキスト群を特定する処理、及び前記テキスト群が含むテキストのうち文字列が一番長いもの以外を削除対象として特定し、当該削除対象の情報を出力する処理、をさらに実行する、
ことを特徴とする請求項１に記載の書き起こし支援方法。
前記情報処理装置が、
前記記憶装置において、前記単語区切りのテキストの確信度の情報と、前記テキストの起源となった各音声データの、発話開始及び発話終了の時刻情報と、集音をしたマイクデバイスの識別情報とを保持して、
前記各音声データのうち、前記発話開始から前記発話終了までの間に関して重複する時間帯が存在し、かつ、前記マイクデバイスの識別情報が異なっているグループを特定する処理、前記グループ中の各音声データに関して得ている前記テキストの各間について、当該テキストそれぞれの総単語数、及び当該テキストの間で一致する単語数を算定する処理、前記テキストそれぞれの総単語数のうち少ないもので、前記一致する単語数を除算し、当該除算で得た値が予め定めた基準以上となったテキスト群を特定する処理、及び前記テキスト群が含むテキストのうち確信度が一番高いもの以外を削除対象として特定し、当該削除対象の情報を出力する処理、をさらに実行する、
ことを特徴とする請求項１に記載の書き起こし支援方法。
音声認識対象となる音声データを保持する記憶装置と、
前記音声データに対する音声認識処理により得た単語区切りのテキストと、前記音声データにおける前記単語の再生開始時間とを対応付けて記憶装置に格納する処理、及び前記テキストを画面表示させた状態で、ユーザから単語単位での再生指定を受け付けた場合、当該単語から始まる音声データを記憶部から読み出して予め定めた規定回数でリピート再生する処理、を実行する演算装置と、
を含むことを特徴とする書き起こし支援装置。
前記演算装置は、
前記リピート再生に際し、ユーザ指定の修正箇所である単語が、低確信度の単語の共起率が所定基準以上の文に含まれていることに応じ、前記音声データの再生回数の増加、再生速度の低減、および音量増大、の少なくともいずれかの出力制御を行うものである、
ことを特徴とする請求項９に記載の書き起こし支援装置。
前記演算装置は、
前記修正箇所のユーザ指定を受けた場合、当該修正箇所たる単語の確信度順に候補リストをポップアップ表示し、当該候補リスト中から、ユーザによる単語選択を受け付け、前記修正箇所の単語をユーザ選択の単語に更新するものである、
ことを特徴とする請求項１０に記載の書き起こし支援装置。
前記演算装置は、
前記リピート再生に際し、前記規定回数のリピート再生の後、当該単語についてさらなるユーザ操作を受けた場合、当該操作の回数の累積程度に応じて、前記音声データの再生速度の低減および音量増大、の少なくともいずれかの出力制御を行うものである、
ことを特徴とする請求項９に記載の書き起こし支援装置。
前記演算装置は、
前記ユーザ操作を受け付ける際、未修正版の音声認識結果と、修正操作を反映した修正版の音声認識結果とを並列表示し、前記未修正版については修正操作を受け付け不可とする表示制御を実行するものである、
ことを特徴とする請求項１２に記載の書き起こし支援装置。
前記演算装置は、
前記未修正版を起点に各修正版を修正履歴として記憶装置にて保持するものである、
ことを特徴とする請求項１３に記載の書き起こし支援装置。
前記記憶装置は、
前記単語区切りのテキストの起源となった各音声データの、発話開始及び発話終了の時刻情報と、集音をしたマイクデバイスの識別情報とを保持し、
前記演算装置は、
前記各音声データのうち、前記発話開始から前記発話終了までの間に関して重複する時間帯が存在し、かつ、前記マイクデバイスの識別情報が異なっているグループを特定する処理、前記グループ中の各音声データに関して得ている前記テキストの各間について、当該テキストそれぞれの総単語数または総文字数における、当該テキストの間で一致する単語数または文字数の割合が所定の基準以上となったテキスト群を特定する処理、及び前記テキスト群が含むテキストのうち文字列が一番長いもの以外を削除対象として特定し、当該削除対象の情報を出力する処理、をさらに実行するものである、
ことを特徴とする請求項９に記載の書き起こし支援装置。
前記記憶装置は、
前記単語区切りのテキストの確信度の情報と、前記テキストの起源となった各音声データの、発話開始及び発話終了の時刻情報と、集音をしたマイクデバイスの識別情報とを保持し、
前記演算装置は、
前記各音声データのうち、前記発話開始から前記発話終了までの間に関して重複する時間帯が存在し、かつ、前記マイクデバイスの識別情報が異なっているグループを特定する処理、前記グループ中の各音声データに関して得ている前記テキストの各間について、当該テキストそれぞれの総単語数、及び当該テキストの間で一致する単語数を算定する処理、前記テキストそれぞれの総単語数のうち少ないもので、前記一致する単語数を除算し、当該除算で得た値が予め定めた基準以上となったテキスト群を特定する処理、及び前記テキスト群が含むテキストのうち確信度が一番高いもの以外を削除対象として特定し、当該削除対象の情報を出力する処理、をさらに実行するものである、
ことを特徴とする請求項９に記載の書き起こし支援装置。