JP7166370B2

JP7166370B2 - 音声記録のための音声認識率を向上させる方法、システム、およびコンピュータ読み取り可能な記録媒体

Info

Publication number: JP7166370B2
Application number: JP2021014195A
Authority: JP
Inventors: スミイ; ジウンシン; イェリムチョン; ギルファンファン; ジョンフンチャン; ナムギュチョン; デヒョンイム
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2020-10-22
Filing date: 2021-02-01
Publication date: 2022-11-07
Anticipated expiration: 2041-02-01
Also published as: KR102446300B1; JP2022068817A; KR20220053182A

Description

以下の説明は、音声認識率を向上させる技術に関する。

モバイル音声変換技術の流れとしては、モバイルデバイスで音声を録音し、音声録音が終われば、録音された区間の音声をテキストに変換してディスプレイ上に表示するのが一般的である。

このような音声変換技術の一例として、特許文献１（公開日２０１４年５月２３日）には、音声録音およびテキスト変換を実行する技術が開示されている。

韓国公開特許第１０－２０１４－００６２２１７号公報

対話音声の録音中に該当の対話の脈絡と関連してユーザが入力した単語を利用することで、音声認識率を向上させる方法とシステムを提供する。

コンピュータ装置が実行する音声記録管理方法であって、前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記音声記録管理方法は、前記少なくとも１つのプロセッサにより、音声をテキストに変換して音声記録を生成する段階を含み、前記生成する段階は、前記音声と関連してユーザが入力したカスタムキーワードに加重値を適用した音声認識を実行する段階を含む、音声記録管理方法を提供する。

一側面によると、前記実行する段階は、前記カスタムキーワードにブースティング（ｂｏｏｓｔｉｎｇ）を適用して前記音声認識を実行してよい。

他の側面によると、前記音声記録管理方法は、前記少なくとも１つのプロセッサにより、前記音声の録音中に前記ユーザが作成したメモと前記音声記録をマッチングして管理する段階をさらに含み、前記実行する段階は、前記メモから前記カスタムキーワードを抽出する段階を含んでよい。

また他の側面によると、前記実行する段階は、前記音声の話者発声区間ごとに、該当の区間にマッチングされたメモから前記カスタムキーワードを抽出して前記音声認識を実行してよい。

また他の側面によると、前記実行する段階は、前記ユーザが前記音声記録に関する情報として入力した単語から前記カスタムキーワードを抽出する段階を含んでよい。

また他の側面によると、前記実行する段階は、前記ユーザが入力した前記音声記録のタイトルと対話に参加する参加者情報から前記カスタムキーワードを抽出する段階を含んでよい。

また他の側面によると、前記実行する段階は、前記ユーザが頻繁に使用する単語として登録されたキーワードを前記カスタムキーワードとして抽出する段階を含んでよい。

また他の側面によると、前記音声記録管理方法は、前記少なくとも１つのプロセッサにより、前記音声記録に含まれたテキストに対して編集機能を提供する段階をさらに含み、前記実行する段階は、前記編集機能を利用して前記ユーザが編集した単語から前記カスタムキーワードを抽出する段階を含んでよい。

また他の側面によると、前記実行する段階は、前記ユーザが入力した単語の種類または類型に基づく加重値によって前記カスタムキーワードを抽出する段階を含んでよい。

さらに他の側面によると、前記実行する段階は、前記ユーザが入力した単語に対する誤字脱字チェックにより、一部の単語を前記カスタムキーワードから除外させる段階を含んでよい。

前記音声記録管理方法をコンピュータに実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体を提供する。

コンピュータ装置であって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、音声をテキストに変換して音声記録を生成する音声記録生成部を含み、前記音声記録生成部は、前記音声と関連してユーザが入力したカスタムキーワードに加重値を適用した音声認識を実行することを特徴とする、コンピュータ装置を提供する。

本発明の一実施形態における、ネットワーク環境の例を示した図である。本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。本発明の一実施形態における、コンピュータ装置のプロセッサが含むことのできる構成要素の例を示した図である。本発明の一実施形態における、コンピュータ装置が実行することのできる方法の例を示したフローチャートである。本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。本発明の一実施形態における、コンピュータ装置が実行することのできる音声認識方法の例を示したフローチャートである。本発明の一実施形態における、ユーザが入力した単語を利用した音声認識結果の例を示した図である。本発明の一実施形態における、ユーザが入力した単語を利用した音声認識結果の例を示した図である。本発明の一実施形態における、ユーザが入力した単語を利用した音声認識結果の例を示した図である。

以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。

本発明の実施形態に係る音声記録管理システムは、少なくとも１つのコンピュータ装置によって実現されてよく、本発明の実施形態に係る音声記録管理方法は、音声記録管理システムに含まれる少なくとも１つのコンピュータ装置によって実行されてよい。このとき、コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールされて実行されてよく、コンピュータ装置は、実行されるコンピュータプログラムの制御にしたがって本発明の実施形態に係る音声記録管理方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置に結合されて音声記録管理方法をコンピュータに実行させるためにコンピュータ読み取り可能な記録媒体に記録されてよい。

図１は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図１のネットワーク環境は、複数の電子機器１１０、１２０、１３０、１４０、複数のサーバ１５０、１６０、およびネットワーク１７０を含む例を示している。このような図１は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図１のように限定されることはない。また、図１のネットワーク環境は、本実施形態に適用可能な環境の一例を説明したものに過ぎず、本実施形態に適用可能な環境が図１のネットワーク環境に限定されることはない。

複数の電子機器１１０、１２０、１３０、１４０は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器１１０、１２０、１３０、１４０の例としては、スマートフォン、携帯電話、ナビゲーション、ＰＣ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）、ノート型ＰＣ、デジタル放送用端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、タブレットなどがある。一例として、図１では、電子機器１１０の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器１１０は、実質的に無線または有線通信方式を利用し、ネットワーク１７０を介して他の電子機器１２０、１３０、１４０および／またはサーバ１５０、１６０と通信することのできる多様な物理的なコンピュータ装置のうちの１つを意味してよい。

通信方式が限定されることはなく、ネットワーク１７０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網）を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク１７０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。さらに、ネットワーク１７０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでもよいが、これらに限定されることはない。

サーバ１５０、１６０それぞれは、複数の電子機器１１０、１２０、１３０、１４０とネットワーク１７０を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する１つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ１５０は、ネットワーク１７０を介して接続した複数の電子機器１１０、１２０、１３０、１４０にサービス（一例として、音声記録管理サービス（または、議事録管理サービス）、コンテンツ提供サービス、グループ通話サービス（または、音声会議サービス）、メッセージングサービス、メールサービス、ソーシャルネットワークサービス、地図サービス、翻訳サービス、金融サービス、決済サービス、検索サービスなど）を提供するシステムであってよい。

図２は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。上述した複数の電子機器１１０、１２０、１３０、１４０それぞれやサーバ１５０、１６０それぞれは、図２に示したコンピュータ装置２００によって実現されてよい。

このようなコンピュータ装置２００は、図２に示すように、メモリ２１０、プロセッサ２２０、通信インタフェース２３０、および入力／出力インタフェース２４０を含んでよい。メモリ２１０は、コンピュータ読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ＲＯＭやディスクドライブのような永続的大容量記録装置は、メモリ２１０とは区分される別の永続的記録装置としてコンピュータ装置２００に含まれてもよい。また、メモリ２１０には、オペレーティングシステムと、少なくとも１つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ２１０とは別のコンピュータ読み取り可能な記録媒体からメモリ２１０にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース２３０を通じてメモリ２１０にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク１７０を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置２００のメモリ２１０にロードされてよい。

プロセッサ２２０は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ２１０または通信インタフェース２３０によって、プロセッサ２２０に提供されてよい。例えば、プロセッサ２２０は、メモリ２１０のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。

通信インタフェース２３０は、ネットワーク１７０を介してコンピュータ装置２００が他の装置（一例として、上述した記録装置）と互いに通信するための機能を提供してよい。一例として、コンピュータ装置２００のプロセッサ２２０がメモリ２１０のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース２３０の制御にしたがってネットワーク１７０を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク１７０を経てコンピュータ装置２００の通信インタフェース２３０を通じてコンピュータ装置２００に受信されてよい。通信インタフェース２３０を通じて受信された信号や命令、データなどは、プロセッサ２２０やメモリ２１０に伝達されてよく、ファイルなどは、コンピュータ装置２００がさらに含むことのできる記録媒体（上述した永続的記録装置）に記録されてよい。

入力／出力インタフェース２４０は、入力／出力装置２５０とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、マウスなどの装置を、出力装置は、ディスプレイ、スピーカなどのような装置を含んでよい。他の例として、入力／出力インタフェース２４０は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置２５０は、コンピュータ装置２００と１つの装置で構成されてもよい。

また、他の実施形態において、コンピュータ装置２００は、図２の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置２００は、上述した入力／出力装置２５０のうちの少なくとも一部を含むように実現されてもよいし、トランシーバやデータベースなどのような他の構成要素をさらに含んでもよい。

先ず、音声をテキストに変換した結果（以下、「音声記録」と称する）を提供する方法およびシステムの具体的な実施形態について説明する。

多くの人が、会議のような多様な状況でモバイルデバイスによって音声を録音し、録音中の対話音声の脈略と関連する内容は、ＰＣのような他のデバイスを利用してメモとして記録することがある。

このように、従来の技術では、音声録音とメモが互いに異なるデバイスに記録されて保管されていたため、音声とメモを確認するときにはそれぞれ個別に確認するしかなく、これにより、録音された内容の全体の流れを把握しながらメモを確認することに限界があった。

このような問題を解決するために、本実施形態では、音声録音およびテキスト変換を含む音声記録機能とメモ機能を統合された１つの機能として提供し、録音された音声をテキストに変換した音声記録と、録音中に作成されたメモをマッチングしてともに管理する音声記録管理サービスを提供する。

また、本実施形態では、対話音声を録音する途中にユーザが作成したメモから重要キーワードを抽出することで、該当のキーワードの認識率を高める方法とシステムを提供する。

また、本実施形態では、音声記録でユーザが編集した単語、あるいはユーザが日常で頻繁に使用する単語を利用することで、より正確な認識結果を提供する方法とシステムを提供する。

特に、本実施形態は、音声記録管理サービスを提供するための専用アプリとウェブとのリアルタイム連動により、録音を実行するデバイスとメモを作成するデバイスとの間にネットワーク接続状態を維持し、音声録音機能とメモ作成機能をともに提供することを目的とする。

図３は、本発明の一実施形態における、コンピュータ装置のプロセッサが含むことのできる構成要素の例を示したブロック図であり、図４は、本発明の一実施形態における、コンピュータ装置が実行することのできる方法の例を示したフローチャートである。

本実施形態に係るコンピュータ装置２００は、クライアントを対象に、クライアント上にインストールされた専用アプリとクライアント上で接続可能なコンピュータ装置２００と関連する専用ウェブサイトによって音声記録管理サービスを提供してよい。コンピュータ装置２００には、コンピュータによって実現された音声記録管理システムが構成されてよい。

コンピュータ装置２００のプロセッサ２２０は、図４に係る音声記録管理方法を実行するための構成要素として、図３に示すように、音声記録生成部３１０、メモマッチング管理部３２０、および音声記録提供部３３０を含んでよい。実施形態によって、プロセッサ２２０の構成要素は、選択的にプロセッサ２２０に含まれても除外されてもよい。また、実施形態によって、プロセッサ２２０の構成要素は、プロセッサ２２０の機能の表現のために分離されても併合されてもよい。

このようなプロセッサ２２０およびプロセッサ２２０の構成要素は、図４の音声記録管理方法が含む段階４１０～４３０を実行するようにコンピュータ装置２００を制御してよい。例えば、プロセッサ２２０およびプロセッサ２２０の構成要素は、メモリ２１０が含むオペレーティングシステムのコードと、少なくとも１つのプログラムのコードとによる命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。

ここで、プロセッサ２２０の構成要素は、コンピュータ装置２００に記録されたプログラムコードが提供する命令にしたがってプロセッサ２２０によって実行される、互いに異なる機能（ｄｉｆｆｅｒｅｎｔｆｕｎｃｔｉｏｎｓ）の表現であってよい。例えば、コンピュータ装置２００が音声記録を生成するように上述した命令にしたがってコンピュータ装置２００を制御するプロセッサ２２０の機能的表現として、音声記録生成部３１０が利用されてよい。

プロセッサ２２０は、コンピュータ装置２００の制御と関連する命令がロードされたメモリ２１０から必要な命令を読み取ってよい。この場合、前記読み取られた命令は、以下で説明する段階４１０～４３０をプロセッサ２２０が実行するように制御するための命令を含んでよい。

以下で説明する段階４１０～４３０は、図４に示した順とは異なる順で実行されることもあるし、段階４１０～４３０のうちの一部が省略されたり追加の過程が含まれたりすることもある。

図４を参照すると、段階４１０で、音声記録生成部３１０は、クライアントから受信された対話音声をテキストに変換することによって音声記録を生成してよい。クライアント側のデバイスでは、録音機能を実行させて録音した音声ファイルを伝達してもよいし、デバイス上に記録された音声ファイルを伝達してもよい。音声記録生成部３１０は、周知の音声認識技術を利用して、話者による発声区間に該当する音声データをテキストに変換した結果である音声記録を生成してよい。このとき、音声記録生成部３１０は、音声記録を生成する過程において話者ごとに発声区間を分割する話者分割技術を適用してよい。音声記録生成部３１０は、会議、インタビュー、取引、裁判などのように多くの話者が順不同に発声する状況で録音された音声ファイルの場合には、発声内容を話者ごとに分割して自動記録してよい。

段階４２０で、メモマッチング管理部３２０は、クライアントが音声録音中に作成するか音声再生中に作成したメモをクライアントから受信し、段階４１０で生成された音声記録とマッチングして管理してよい。メモマッチング管理部３２０は、クライアントが録音を実行した時間を基準として、音声記録中および録音実行中に作成されたメモをマッチングしてよい。音声記録は、話者発声区間の基点を示すタイムスタンプを含んでよく、メモマッチング管理部３２０は、音声記録のタイムスタンプを基準として該当の区間に作成されたメモをともに管理してよい。これと同じように、メモマッチング管理部３２０は、音声記録が存在する音声ファイルに対し、クライアントが音声を再生する時間を基準として、音声記録中および音声再生中に作成されたメモをマッチングして記録してよい。言い換えれば、メモマッチング管理部３２０は、特定の時点の発声区間に作成されたメモを該当の時点の音声記録とマッチングして管理してよい。

段階４３０で、音声記録提供部３３０は、クライアントから音声記録に対する選択命令が受信される場合、該当の音声記録を音声記録とマッチングされたメモと連係させて提供してよい。音声記録提供部３３０は、音声録音中に作成されるか音声再生中に作成されたメモを音声記録とともに簡単かつ便利に確認できるように、音声記録とメモをデュアルビュー方式によって並べて表示してよい。デュアルビュー方式とは、音声記録とメモを二列に並べて表示する方式であって、これは、音声をテキストに変換した音声記録と該当の音声の録音時間や再生時間に作成されたメモを並べて表示することで対話記録を簡単に探索できるようにするインタフェースを提供するものである。音声記録提供部３３０は、音声記録とメモをデュアル表示する方式の他にも、クライアントの選択にしたがい、音声記録とメモのうちの１つを単独表示する方式で実現することも可能である。

図５～１２は、本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。

図５～１２は、クライアント上にインストールされた専用アプリケーションやコンピュータ装置２００と関連するウェブ／モバイルサイト上のインタフェース画面であって、音声記録管理画面５００の例を示している。

図５～９は、音声記録を生成する過程を説明するための音声記録管理画面５００の例を示している。

以下では、音声録音とメモ作成のためのデバイスとして同じデバイスを使用する環境を仮定して説明するが、これに限定されてはならず、ユーザの同一アカウントによってログインしたモバイルアプリとＰＣウェブを連動し、モバイルアプリでは音声録音を実行し、ＰＣウェブでは録音中の音声と関連するメモを作成する使用環境のような多様な使用環境も適用可能である。

図５を参照すると、音声記録管理画面５００は、音声記録管理サービスのホーム画面構成であって、サービス提供のための主要メニューリストが含まれてよく、一例として、音声記録をフォルダ単位で管理するためのフォルダリスト５０１が含まれてよい。また、音声記録管理画面５００には、新たな音声記録を生成するための「新規ノート作成」メニュー５０２が含まれてよい。

プロセッサ２２０は、音声記録管理画面５００から「新規ノート作成」メニュー５０２が選択される場合、図６に示すように、音声記録生成画面６１０を提供してよい。音声記録生成画面６１０には、音声記録のタイトルを入力するための「タイトル」入力欄６１１、対話に参加する参加者情報を入力するための「参加者」入力欄６１２、音声録音のための「録音開始」メニュー６１３、音声ファイルをアップロードするための「ファイルアップロード」メニュー６１４などが含まれてよい。言い換えれば、プロセッサ２２０は、音声記録を生成するために、録音機能とファイルアップロード機能を提供してよい。

プロセッサ２２０は、音声記録生成画面６１０から「録音開始」メニュー６１３が選択される場合、図７に示すように、音声録音画面７２０を提供してよい。音声録音画面７２０は、基本的な録音インタフェースであって、録音が実行された時間情報、録音を一時停止するための一時停止ボタン、録音を終了するための終了ボタンなどが含まれてよい。

特に、音声録音画面７２０には、録音中にメモを作成できるようにするメモインタフェース７２１と、録音中にブックマークを記録できるようにするブックマークインタフェース７２２が含まれてよい。このとき、メモインタフェース７２１には、テキストによる入力はもちろん、写真や動画撮影機能、ファイル添付機能などが含まれてよい。ユーザは、メモインタフェース７２１を利用することで、録音中に該当の音声と関連する重要な内容や添付の内容などをメモとして作成することができ、メモの他にも、ブックマークインタフェース７２２を利用することで、重要区間の録音時点にブックマークを記録することができる。録音実行時間を基準として録音中に入力されたメモやブックマークが記録されてよく、例えば、メモ作成が始まった時点の録音実行時間がメモ作成時間に記録されてよく、ブックマークが入力された時点の録音実行時間がブックマーク指定時間として記録されてよい。

音声記録に対するブックマークとしては、ブックマークインタフェース７２２を利用した手動設定を説明しているが、これに限定されてはならず、自動設定機能による実現も可能である。例えば、事前に定められた主要キーワード（一例として、音声記録のタイトルやタグなど）が発声される区間にブックマークが自動で記録されるようにしてよい。

プロセッサ２２０は、音声記録生成画面６１０から「ファイルアップロード」メニュー６１４が選択される場合、クライアントが音声ファイルを探索できるようにするためのファイル探索画面を提供し、ファイル選択画面から特定のファイルが選択されれば、図８に示すように、選択されたファイルをアップロードするファイルアップロード画面８３０を提供してよい。ファイルアップロード画面８３０には、選択されたファイルに関する情報（例えば、ファイル名、ファイルの長さなど）とともに、ファイルアップロードの進行状況を示すプログレスバー８３１が含まれてよい。

プロセッサ２２０は、音声録音画面７２０による音声録音が完了するか、ファイルアップロード画面８３０によるファイルアップロードが完了すれば、図９に示すように、音声をテキストに変換する音声記録生成過程の進行状況９１５を音声記録生成画面６１０に表示してよい。録音の場合は、録音と同時進行で音声ファイルがリアルタイムでアップロードされるか、あるいは録音の完了にともなって録音された音声ファイル全体が一括アップロードされてよい。

プロセッサ２２０は、音声記録生成過程が完了した音声ファイルに対し、音声記録とメモ（および、ブックマーク）を時間的にマッチングしてともに提供してよい。

図１０～１２は、音声記録を提供する過程を説明するための音声記録管理画面５００の例を示した図である。

図１０を参照すると、プロセッサ２２０は、音声記録管理画面５００に提供されたファイルリストから特定の音声記録が選択される場合、該当のタイトルの音声記録に対し、デュアルビュー方式によって音声記録領域１０４０とメモ領域１０５０をともに表示してよい。音声記録管理画面５００には、音声記録生成過程で入力されたタイトル１０４１と参加者情報１０４２が提供されてよく、音声ファイルの再生を制御するためのコントローラ領域１０６０が含まれてよい。

音声記録領域１０４０では、各区間の音声を変換したテキストが発声区間ごとに表示されてよい。このとき、音声ファイルでテキストが発声される時点を基準にタイムスタンプが表示されてよい。メモ領域１０５０には、音声ファイルの録音中に作成されたメモが表示されてよく、各メモには、メモの作成が始まった時点の録音実行時間が該当のメモのタイムスタンプとして表示されてよい。

プロセッサ２２０は、音声記録領域１０４０とメモ領域１０５０を二列に並べて表示してよい。このとき、音声記録領域１０４０とメモ領域１０５０は、タイムスタンプを基準にマッチングさせて表示してよい。例えば、話者１が発声した００分０２秒時点に作成されたメモは、該当の発声区間のテキストと同一線上に表示してよい。

音声記録領域１０４０とメモ領域１０５０をタイムスタンプに基づく同一線上に表示するのではなく、単にそれぞれの時間順にしたがって整列することも可能である。この他にも、音声記録領域１０４０とメモ領域１０５０を整列する方式は、デュアルビュー方式の範囲内であれば、いくらでも変更可能である。

コントローラ領域１０６０は、プログレスバー、再生／一時停止ボタン、早送りボタン、巻き戻しボタン、音量調節ボタンなどが含まれてよく、メモが作成された区間を示すメモインジケータ１０６１とブックマークが記録された区間を示すブックマークインジケータ１０６２が、プログレスバー上に表示されてよい。

メモインジケータ１０６１とブックマークインジケータ１０６２を一目で区分できるように、インジケータのディスプレイ要素（例えば、色や形状など）を互いに異なるように適用してよい。

プロセッサ２２０は、ユーザが音声記録領域１０４０から特定の発声区間のテキストを選択する場合、該当の区間の音声を再生してよい。メモ領域１０５０から特定のメモを選択する場合も同じように、該当のメモが作成された区間の音声が再生されてよい。

プロセッサ２２０は、音声記録領域１０４０とメモ領域１０５０の相互間の選択領域を同期化してよい。例えば、ユーザが音声記録領域１０４０から特定の発声区間のテキストを選択する場合、該当の区間に作成されたメモ領域１０５０内のメモをハイライト表示してよい。

ユーザは、音声記録領域１０４０とメモ領域１０５０を同時に確認することができ、コントローラ領域１０６０内のプログレスバー上のメモインジケータ１０６１とブックマークインジケータ１０６２によって簡単かつ便利な探索が可能となるため、対話内容を一目で把握することが可能となる。

図１１を参照すると、プロセッサ２２０は、音声記録領域１０４０でブックマークが指定された発声区間のテキストを他の区間のテキストと区別して表示してよく、例えば、該当の区間のテキストに対してブックマークアイコン１１７１を表示してよい。ブックマークアイコン１１７１を表示する以外にも、ブックマークが指定された発声区間のテキストにハイライトを適用することも可能である。

また、プロセッサ２２０は、音声記録領域１０４０でブックマークが指定された発声区間のテキストに対して「編集」メニュー１１７２を提供し、ブックマーク区間のテキスト編集を誘導してよい。

プロセッサ２２０は、音声記録領域１０４０でブックマークが指定された発声区間のテキストに対して「編集」メニュー１１７２が選択される場合、図１２に示すように、該当の区間のテキストを編集できるようにする編集画面１２７０を提供してよい。音声記録領域１０４０でブックマークが指定された発声区間のテキストは、編集画面１２７０で編集されたテキストに更新されてよい。

プロセッサ２２０は、音声記録領域１０４０に含まれたブックマーク区間の他にも、発声区間のテキストそれぞれに対して編集機能を提供してよく、メモ領域１０５０に含まれたメモを編集できるようにする機能を提供してもよい。

また、プロセッサ２２０は、音声記録領域１０４０とメモ領域１０５０に対し、話者やキーワードなどを利用したグルーピングによるフィルタリング機能を提供してよい。

プロセッサ２２０は、音声記録領域１０４０から特定の話者が選択される場合、該当の話者の発声区間に対する音声記録とメモのうちの少なくとも１つをグルーピングして表示してよい。言い換えれば、特定の話者が発声した区間の音声記録と該当の話者の発声区間に対して作成されたメモを１つにまとめて表示してよい。

また、プロセッサ２２０は、ユーザが入力したキーワードを基準に、該当のキーワードを含む音声記録とメモのうちの少なくとも１つをグルーピングして表示することも可能である。キーワードを利用したメモグルーピングの場合は、該当のキーワードを含むメモ、または該当のキーワードを含む発声区間に作成されたメモをグルーピング対象としてよい。話者やキーワードの他にも、音声記録とメモを分類することのできる多様な基準がフィルタリングに活用されてよい。

プロセッサ２２０は、音声記録領域１０４０とメモ領域１０５０をともに表示するデュアルビュー方式の他にも、ユーザの選択にしたがい、音声記録領域１０４０とメモ領域１０５０のうちの１つを選択的に表示するビューモードを提供してよい。

以下では、音声記録のための音声認識率を向上させる方法およびシステムの具体的な実施形態について説明する。

音声認識技術では、固有名詞や専門用語などのように一般的にあまり使用されない単語の場合は、一般的な単語に比べて認識率が低下するという問題がある。

本実施形態では、音声認識の正確度を向上させるために、対話の脈絡と関連してユーザから入力された単語を活用する。

図１３は、本発明の一実施形態における、コンピュータ装置が実行することのできる音声認識方法の例を示したフローチャートである。図１３の音声認識方法は、音声記録生成部３１０によって実行されるものであり、図４の音声記録管理方法に含まれる段階４１０に含まれてよい。

段階１３０１で、音声記録生成部３１０は、音声ファイルと関連してユーザが入力した文章から、音声認識のためのカスタムキーワード（ｃｕｓｔｏｍｋｅｙｗｏｒｄ）を抽出してよい。一例として、音声記録生成部３１０は、対話音声の録音の途中にユーザがメモ機能を利用して該当の対話の脈絡と関連して作成したメモに基づき、該当のメモから、名詞などのような少なくとも一部の品詞に該当する単語をカスタムキーワードとして抽出してよい。他の例として、音声記録生成部３１０は、音声記録生成過程でユーザが該当の音声記録に関する情報として入力した単語、例えば、音声記録生成画面６１０に入力した音声記録のタイトルやタグ、参加者情報から、名詞などのような少なくとも一部の品詞に該当する単語をカスタムキーワードとして抽出してよい。また他の例として、音声記録生成部３１０は、事前に構築されたカスタム辞書内から、ユーザが入力した音声記録のタイトルと関連し、該当のタイトルと関連するカテゴリの単語をカスタムキーワードとして抽出してよい。また他の例として、音声記録生成部３１０は、編集機能（例えば、図１２を参照しながら説明した編集機能）を利用して音声記録でユーザが編集した内容、言い換えれば、最終的に修正された内容から、名詞などのような少なくとも一部の品詞に該当する単語をカスタムキーワードとして抽出してよい。さらに他の例として、音声記録生成部３１０は、ユーザが日常で頻繁に使用する単語として登録されたキーワードをカスタムキーワードとして活用してよい。頻繁に使用する単語を登録する過程において、プロセッサ２２０は、コンピュータ装置２００の構成要素として含まれる辞書データベースあるいはコンピュータ装置２００と連動可能な辞書データベースを利用してユーザが選択した関心分野に基づく推薦単語を提供してよく、ユーザは、推薦単語のうちの少なくとも一部を頻繁に使用する単語として登録してよい。

また、音声記録生成部３１０は、単語の種類または類型などに基づく加重値を適用してカスタムキーワードを抽出してよい。音声記録生成部３１０は、一般的に使用される単語に比べてよりユニークな単語を重要キーワードとして抽出してよい。例えば、音声記録生成部３１０は、カスタムキーワードを抽出するにあたり、固有名詞と専門用語に該当する単語には、一般名詞（普通名詞）よりも高い加重値を付与してよい。

また、音声記録生成部３１０は、カスタムキーワードを抽出するにあたり、正書法チェックなどのような誤字脱字チェックにより、ユーザが入力した単語のうちで明らかに誤字脱字であると判断される単語をカスタムキーワードから除外させてよい。

段階１３０２で、音声記録生成部３１０は、段階１３０１で抽出されたカスタムキーワードに加重値を適用した音声認識により、音声ファイルに対応する音声記録を生成してよい。音声記録生成部３１０は、音声記録を生成する過程においてカスタムキーワードにブースティングアルゴリズムを適用することにより、該当のキーワードをより正確に認識できるように学習してよい。言い換えれば、音声記録生成部３１０は、カスタムキーワードに音声認識加重値を適用して他のキーワードよりも高い優先順位として認識されるように処理することにより、カスタムキーワードの認識率を高めてよい。

図１４を参照すると、音声記録生成部３１０は、音声録音中に作成されたメモ１４０１である＜ウェブバージョン追加＞から、カスタムキーワード１４０２＜「ウェブ」、「バージョン」、「追加」＞を抽出してよく、カスタムキーワード１４０２にブースティングを適用する音声認識によって改善された音声認識結果１４０３が得られるようになる。ブースティング前の音声認識結果１４０４が「外壁で使う機能の超過をしました」であるとするとき、カスタムキーワード１４０２＜「ウェブ」、「バージョン」、「追加」＞にブースティングを適用することにより、「ウェブで使う機能の追加をしました」のような、より正確な音声認識結果１４０３が得られるようになる。例えば、音声認識エンジンで、カスタムキーワード１４０２を利用して「外壁」のような「ウェブ」と類似する認識をすべて「ウェブ」にチューニングしてよい。

図１５を参照すると、音声記録生成部３１０は、音声録音中に作成されたメモ１５０１である＜ｉＯＳイントロ予定＞から、カスタムキーワード１５０２＜「ｉＯＳ」、「イントロ」、「予定」＞を抽出してよい。ブースティング前の音声認識結果１５０４が「アイオーエス側は今こっちの方と」であるとするとき、カスタムキーワード１５０２＜「ＩＯＳ」、「イントロ」、「予定」＞にブースティングを適用することにより、「ｉＯＳ側は今イントロして」のような、より正確な音声認識結果１５０３が得られるようになる。音声記録生成部３１０は、メモ１５０１の一部のキーワードが英語で入力された場合、外来語や韓国式発音を適用してブースティングしてよい。例えば、音声認識エンジンで、韓国式発音「アイオーエス」をメモ１５０１に作成された英語表記形式「ｉＯＳ」にチューニングしてよい。

図１６を参照すると、音声記録生成部３１０は、音声録音中に作成されたメモの他にも、音声記録生成過程でユーザが入力した音声記録のタイトルや参加者情報などを含む音声記録情報１６０１から、カスタムキーワード１６０２を抽出することも可能である。例えば、音声記録のタイトルが＜Ａｎｄｒｏｉｄデモ＞であり、参加者情報が＜ホン・ギルドン、キム・ヒョンジェ＞であるとき、カスタムキーワード１６０２として＜「Ａｎｄｒｏｉｄ」、「デモ」、「ホン・ギルドン」、「キム・ヒョンジェ」＞を抽出してよい。ブースティング前の音声認識結果１６０４が「はい、ヒョンジュさん、作ってくれた、お話しください」であるとするとき、カスタムキーワード１６０２＜「Ａｎｄｒｏｉｄ」、「デモ」、「ホン・ギルドン」、「キム・ヒョンジェ」＞にブースティングを適用することにより、「はい、ヒョンジェさん、Ａｎｄｒｏｉｄお話ください」のような、より正確な音声認識結果１６０３が得られるようになる。

実施形態によっては、話者発声区間ごとの音声認識結果に対し、該当の区間にマッチングされたメモからカスタムキーワードを抽出して該当のキーワードに対するブースティングを適用してよい。言い換えれば、音声記録生成部３１０は、話者発声区間ごとに異なるカスタムキーワードを適用してもよい。

音声記録が生成された後、音声記録でユーザが編集した単語をカスタムキーワードとして取得した場合には、音声をテキストに変換する音声記録生成過程を再度実行して該当の音声記録をアップデートしてよい。音声記録生成部３１０は、音声記録アップデート過程でユーザが編集した単語、すなわち、カスタムキーワードにブースティングを適用してよい。

このように、本発明の実施形態によると、対話音声の録音中に該当の対話の脈絡と関連してユーザが入力した単語にブースティングを適用することにより、録音された音声をテキストに変換する過程において、該当の単語をより正確に認識することができる。対話音声を録音する途中にメモ機能を利用してユーザが入力した単語、音声をテキストに変換した音声記録でユーザが編集した単語、ユーザが日常で頻繁に使用する単語などのように、ユーザが入力した単語を学習することで音声認識の正確度を向上させることができる。

また、本発明の実施形態によると、対話音声の録音中に該当の対話の脈絡と関連してユーザが入力した単語にブースティング（ｂｏｏｓｔｉｎｇ）を適用することにより、録音された音声をテキストに変換する過程において、該当の単語をより正確に認識することができる。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者であれば、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

２２２：プロセッサ
３１０：音声記録生成部
３２０：メモマッチング管理部
３３０：音声記録提供部

Claims

コンピュータ装置が実行する音声記録管理方法であって、
前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、
前記音声記録管理方法は、
前記少なくとも１つのプロセッサにより、音声をテキストに変換して音声記録を生成する段階、
前記少なくとも１つのプロセッサにより、前記音声の録音中にユーザが作成したメモを前記音声記録とマッチングして管理する段階、および
前記少なくとも１つのプロセッサにより、前記メモからカスタムキーワードを抽出する段階
を含み、
前記生成する段階は、
前記音声と関連して前記カスタムキーワードに加重値を適用した音声認識を実行する段階
を含む、音声記録管理方法。
前記実行する段階は、
前記カスタムキーワードに加重値を適用して優先順位を上げ、前記音声認識を実行すること
を特徴とする、請求項１に記載の音声記録管理方法。
前記実行する段階は、
前記音声の話者発声区間ごとに、該当の区間にマッチングされたメモから前記カスタムキーワードを抽出して前記音声認識を実行すること
を特徴とする、請求項１に記載の音声記録管理方法。
前記実行する段階は、
前記ユーザが前記音声記録に関する情報として入力した単語から前記カスタムキーワードを抽出する段階
を含む、請求項１～３のうちのいずれか一項に記載の音声記録管理方法。
前記実行する段階は、
前記ユーザが入力した前記音声記録のタイトルと対話に参加する参加者情報から前記カスタムキーワードを抽出する段階
を含む、請求項１～４のうちのいずれか一項に記載の音声記録管理方法。
前記実行する段階は、
前記ユーザが頻繁に使用する単語として登録されたキーワードを前記カスタムキーワードとして抽出する段階
を含む、請求項１～５のうちのいずれか一項に記載の音声記録管理方法。
前記音声記録管理方法は、
前記少なくとも１つのプロセッサにより、前記音声記録に含まれたテキストに対して編集機能を提供する段階
をさらに含み、
前記実行する段階は、
前記編集機能を利用して前記ユーザが編集した単語から前記カスタムキーワードを抽出する段階
を含む、請求項１～６のうちのいずれか一項に記載の音声記録管理方法。
前記実行する段階は、
前記ユーザが入力した単語の種類または類型に基づく加重値によって前記カスタムキーワードを抽出する段階
を含む、請求項１～７のうちのいずれか一項に記載の音声記録管理方法。
前記実行する段階は、
前記ユーザが入力した単語に対する誤字脱字チェックにより、一部の単語を前記カスタムキーワードから除外させる段階
を含む、請求項１～８のうちのいずれか一項に記載の音声記録管理方法。
請求項１～９のうちのいずれか一項に記載の音声記録管理方法をコンピュータに実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体。
コンピュータ装置であって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
音声をテキストに変換して音声記録を生成する音声記録生成部、および
前記音声の録音中にユーザが作成したメモを前記音声記録とマッチングして管理するメモマッチング管理部
を含み、
前記音声記録生成部は、
前記メモからカスタムキーワードを抽出し、
前記音声記録生成部は、
前記音声と関連して前記カスタムキーワードに加重値を適用した音声認識を実行すること
を特徴とする、コンピュータ装置。
前記音声記録生成部は、
前記カスタムキーワードに加重値を適用して優先順位を上げ、前記音声認識を実行すること
を特徴とする、請求項１１に記載のコンピュータ装置。
前記音声記録生成部は、
前記音声の話者発声区間ごとに、該当の区間にマッチングされたメモから前記カスタムキーワードを抽出して前記音声認識を実行すること
を特徴とする、請求項１１に記載のコンピュータ装置。
前記音声記録生成部は、
前記ユーザが前記音声記録に関する情報として入力した単語から前記カスタムキーワードを抽出すること
を特徴とする、請求項１１～１３のうちのいずれか一項に記載のコンピュータ装置。
前記音声記録生成部は、
前記ユーザが入力した前記音声記録のタイトルと対話に参加する参加者情報から前記カスタムキーワードを抽出すること
を特徴とする、請求項１１～１４のうちのいずれか一項に記載のコンピュータ装置。
前記音声記録生成部は、
前記ユーザが頻繁に使用する単語として登録されたキーワードを前記カスタムキーワードとして抽出すること
を特徴とする、請求項１１～１５のうちのいずれか一項に記載のコンピュータ装置。
前記少なくとも１つのプロセッサは、
前記音声記録に含まれたテキストに対して編集機能を提供する音声記録提供部
をさらに含み、
前記音声記録生成部は、
前記編集機能を利用して前記ユーザが編集した単語から前記カスタムキーワードを抽出すること
を特徴とする、請求項１１～１６のうちのいずれか一項に記載のコンピュータ装置。
前記音声記録生成部は、
前記ユーザが入力した単語の種類または類型に基づく加重値によって前記カスタムキーワードを抽出すること
を特徴とする、請求項１１～１７のうちのいずれか一項に記載のコンピュータ装置。