JP2019120763A - Voice recognition system and voice recognition method - Google Patents

Voice recognition system and voice recognition method Download PDF

Info

Publication number
JP2019120763A
JP2019120763A JP2017254709A JP2017254709A JP2019120763A JP 2019120763 A JP2019120763 A JP 2019120763A JP 2017254709 A JP2017254709 A JP 2017254709A JP 2017254709 A JP2017254709 A JP 2017254709A JP 2019120763 A JP2019120763 A JP 2019120763A
Authority
JP
Japan
Prior art keywords
speech recognition
word
dictionary
character information
priority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017254709A
Other languages
Japanese (ja)
Other versions
JP6985138B2 (en
Inventor
政行 西川
Masayuki Nishikawa
政行 西川
和之 藤田
Kazuyuki Fujita
和之 藤田
白鳥 毅
Takeshi Shiratori
毅 白鳥
恵 秋山
Megumi Akiyama
恵 秋山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Itoki Corp
Original Assignee
Itoki Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Itoki Corp filed Critical Itoki Corp
Priority to JP2017254709A priority Critical patent/JP6985138B2/en
Publication of JP2019120763A publication Critical patent/JP2019120763A/en
Application granted granted Critical
Publication of JP6985138B2 publication Critical patent/JP6985138B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

To provide a voice recognition system and a voice recognition method capable of improving the accuracy of voice recognition.SOLUTION: The voice recognition system 100 includes a character information analysis unit 50 which reads character information in a document to be subjected to voice recognition and calculates the appearance frequency of the words contained in the character information, a word priority setting unit 60 for setting the priority of each word based on the calculated appearance frequency of the words, a dictionary storage unit 40 for managing registration or update of the words having the priority set in the voice recognition dictionaries 41 to 43, and a voice recognition conversion unit 70 for recognizing newly input voice information and converting it into character information corresponding to the voice information and outputting it with reference to the priority for each updated word. A plurality of types of voice recognition dictionaries 41 to 43 are provided in correspondence with the use range, and the dictionary storage unit 40 registers or updates the voice recognition dictionary corresponding to the use range of the word with reference to the plurality of voice recognition dictionaries.SELECTED DRAWING: Figure 1

Description

本発明は、音声認識システム及び音声認識方法に関する。   The present invention relates to a speech recognition system and a speech recognition method.

音声認識の精度を上げるためにユーザ文書を予め読み込んでおき、音声認識の言語モデルにおける単語の重み付けを変更するものが創案されていた。   In order to improve the accuracy of speech recognition, a user document has been read in advance, and it has been proposed to change the weighting of words in a speech recognition language model.

例えば、音声認識システムにおいて、追加された情報からキーワードを抽出し、抽出キーワードに基づいて単語の重み付けを変更することにより、音声認識辞書を更新する技術が提案されている(特許文献1参照)。   For example, in a speech recognition system, there has been proposed a technique for updating a speech recognition dictionary by extracting keywords from added information and changing word weighting based on the extracted keywords (see Patent Document 1).

また、音声認識システムに適用される言語モデルの改良により、ユーザワードの認識率を向上させる言語モデル改良装置が提案されている(特許文献2参照)。   Also, a language model improvement device has been proposed that improves the recognition rate of user words by improving the language model applied to the speech recognition system (see Patent Document 2).

特許6107003号Patent No. 6107003 特開2017−45054号公報Unexamined-Japanese-Patent No. 2017-45054

上記のような従来の音声認識システムを用いて、実際の企業で日常的に行われる社内的なプレゼンテーションや会議(以下「会議等」)においてユーザの発表を音声認識させる場合、抽出キーワードに基づいて音声認識をさせることになる。   When the user's presentation is speech-recognized in an in-house presentation or meeting (hereinafter referred to as "meeting etc.") routinely performed in a real company using the conventional speech recognition system as described above, based on the extracted keywords It will cause voice recognition.

しかし、会議等で実際に話される語彙には偏りがあることが多く、音声認識の精度が必ずしも向上しないことがあった。このような語彙の偏りは、ユーザやプロジェクト、会社に依存するものであった。   However, there are often biases in the vocabulary actually spoken in a meeting or the like, and the accuracy of speech recognition may not always improve. Such vocabulary bias was dependent on the user, the project, and the company.

そこで、本発明は、音声認識の精度を向上させることができる音声認識システム及び音声認識方法を提供することを目的とする。   Then, this invention aims at providing the speech recognition system and the speech recognition method which can improve the precision of speech recognition.

本発明の一態様に係る音声認識システムは、音声情報を認識して文字情報へと変換する音声認識システムであって、音声認識の対象となる文書内の文字情報を読み込んで前記文字情報に含まれる単語の出現頻度を集計する文字情報解析部と、集計した前記単語の出現頻度に基づいて単語ごとの優先度を設定する単語優先度設定部と、前記優先度が設定された単語の音声認識辞書への登録又は更新を管理する辞書格納部と、登録又は更新された前記音声認識辞書を参照しながら新たに入力される音声情報を認識して前記音声情報に対応する文字情報へと変換して出力する音声認識変換部と、を備え、前記音声認識辞書は、前記単語の使用範囲に対応させて複数種類が設けられており、前記辞書格納部は、複数種類の前記音声認識辞書を参照して、前記単語の使用範囲に対応する音声認識辞書に対して登録又は更新する。   A speech recognition system according to an aspect of the present invention is a speech recognition system that recognizes speech information and converts it into character information, and character information in a document to be subjected to speech recognition is read and included in the character information. A character information analysis unit that tabulates the appearance frequency of the words, a word priority setting unit that sets a priority for each word based on the appearance frequency of the words, and voice recognition of the word to which the priority is set A dictionary storage unit that manages registration or update in a dictionary, and voice information that is newly input while referring to the voice recognition dictionary that has been registered or updated is recognized and converted into character information corresponding to the voice information. A plurality of types of speech recognition dictionary corresponding to the use range of the word, and the dictionary storage section refers to the plurality of types of speech recognition dictionary do it To register or update the speech recognition dictionary corresponding to the range of use of the word.

また本発明の一態様に係る音声認識方法は、音声情報を認識して文字情報へと変換する音声認識方法であって、音声認識の対象となる文書内の文字情報を読み込んで前記文字情報に含まれる単語の出現頻度を集計するステップと、集計した前記単語の出現頻度に基づいて単語ごとの優先度を設定するステップと、前記優先度が設定された単語の音声認識辞書への登録又は更新を管理するステップと、登録又は更新された前記音声認識辞書を参照しながら新たに入力される音声情報を認識して前記音声情報に対応する文字情報へと変換して出力するステップと、を備え、前記音声認識辞書は、前記単語の使用範囲に対応させて複数種類が設けられており、前記登録又は更新を管理するステップでは、複数種類の前記音声認識辞書を参照して、前記単語の使用範囲に対応する音声認識辞書に対して登録又は更新する。   A speech recognition method according to an aspect of the present invention is a speech recognition method for recognizing speech information and converting it into character information, wherein character information in a document to be subjected to speech recognition is read and used as the character information. The steps of tabulating the appearance frequency of the included word, setting the priority for each word based on the tabulated appearance frequency of the word, and registering or updating the word having the priority set in the speech recognition dictionary Managing the voice recognition dictionary, recognizing the voice information newly input while referring to the voice recognition dictionary registered or updated, converting the voice information into character information corresponding to the voice information, and outputting the character information. The voice recognition dictionary is provided in a plurality of types corresponding to the use range of the word, and in the step of managing registration or updating, the voice recognition dictionary is referred to with a plurality of types of voice recognition dictionaries. To register or update the speech recognition dictionary corresponding to the range of use of the word.

前記複数種類の音声認識辞書は、1)〜3)の中から複数選択されるようにしてもよい。
1)前記文書を使用するユーザに対応づけられたユーザ用語辞書;
2)前記文書を使用するユーザが所属するプロジェクトに対応づけられたプロジェクト用語辞書;及び
3)前記文書を使用するユーザが所属する会社に対応付けられた会社用語辞書。
The plurality of voice recognition dictionaries may be selected from 1) to 3).
1) a user term dictionary associated with a user who uses the document;
2) a project term dictionary associated with a project to which the user who uses the document belongs; and 3) a company term dictionary associated with a company to which the user who uses the document belongs.

前記音声認識変換部は、参照する前記音声認識辞書の種類に対応させて前記優先度を決定するための係数を変更するようにしてもよい。   The voice recognition conversion unit may change a coefficient for determining the priority in accordance with the type of the voice recognition dictionary to be referred to.

前記単語ごとの優先度は、入力されている前記音声情報に対応する前記文書内の相対位置を基準として定められる重み付け特性に基づいて動的に変更されるようにしてもよい。   The priority for each word may be dynamically changed based on a weighting characteristic determined based on a relative position in the document corresponding to the input speech information.

前記辞書格納部は、前記文字情報に含まれる単語がいずれの前記音声認識辞書に記録されていない新たな単語である場合、所定の係数に基づいて前記新たな単語の優先度を決定して記録するようにしてもよい。   When the word included in the character information is a new word not recorded in any of the voice recognition dictionaries, the dictionary storage unit determines the priority of the new word based on a predetermined coefficient and records the word. You may do it.

前記音声認識変換部から出力された文字情報が手動で修正された場合に、修正された内容に基づいて音声認識間違いを学習する誤認識学習部をさらに備えるようにしてもよい。   The voice recognition conversion unit may further include a false recognition learning unit that learns a voice recognition error based on the corrected content when the character information output from the voice recognition conversion unit is manually corrected.

本発明によれば、音声認識の精度を向上させることができる。   According to the present invention, the accuracy of speech recognition can be improved.

本実施形態に係る音声認識システムの基本システム図である。It is a basic system figure of the speech recognition system concerning this embodiment. 本実施形態に係る音声認識システムの変形態様のシステム図である。It is a system diagram of the modification of the speech recognition system concerning this embodiment. スタンドアロン構成の音声認識システムのシステム図である。FIG. 1 is a system diagram of a standalone speech recognition system. 共有システム構成の音声認識システムのシステム図である。It is a system diagram of the speech recognition system of a share system configuration. 本実施形態に係る音声認識方法のフローチャートである。It is a flowchart of the speech recognition method concerning this embodiment. 本実施形態に係る音声認識方法の処理工程図である。It is a processing process figure of the speech recognition method concerning this embodiment. 辞書格納部に登録する会議資料情報の説明図である。It is explanatory drawing of the meeting material information registered into a dictionary storage part. 会社用語、プロジェクト用語及びユーザ用語辞書の説明図である。It is explanatory drawing of a company term, a project term, and a user term dictionary. 単語優先度の算出法の説明図である。It is explanatory drawing of the calculation method of word priority. 入力されている前記音声情報に対応する前記文書内の相対位置を基準として定められる重み付け特性の説明図である。It is explanatory drawing of the weighting characteristic defined on the basis of the relative position in the said document corresponding to the said audio | voice information currently input.

添付図面を参照して、本発明の好適な実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。
〔音声認識システムの構成〕
Preferred embodiments of the present invention will be described with reference to the accompanying drawings. In addition, what attached the same code | symbol in each figure has the same or same structure.
[Configuration of speech recognition system]

図1を参照して、本発明の一実施の形態に係る音声認識システムについて説明する。図1は、本実施形態に係る音声認識システムの基本システム図である。   A speech recognition system according to an embodiment of the present invention will be described with reference to FIG. FIG. 1 is a basic system diagram of the speech recognition system according to the present embodiment.

図1に示すように、本実施形態に係る音声認識システム100は、音声情報を認識して文字情報へと変換する音声認識システムである。音声認識システム100は、辞書格納部40、文字情報解析部50、単語優先度設定部60、及び音声認識変換部70を備える。また、音声認識システム100には、ユーザインターフェース30及び画像表示装置80が接続されている。   As shown in FIG. 1, the speech recognition system 100 according to the present embodiment is a speech recognition system that recognizes speech information and converts it into character information. The speech recognition system 100 includes a dictionary storage unit 40, a character information analysis unit 50, a word priority setting unit 60, and a speech recognition conversion unit 70. In addition, a user interface 30 and an image display device 80 are connected to the voice recognition system 100.

ユーザインターフェース30は、ユーザ10が音声認識システム100へ所定の情報を入力するためのインターフェースである。ユーザインターフェース30は、例えば、キーボード等の文字入力インターフェース31、スキャナ等の文書読み取りインターフェース32及びマイク等の音声入力インターフェース33等を備える。   The user interface 30 is an interface for the user 10 to input predetermined information to the speech recognition system 100. The user interface 30 includes, for example, a character input interface 31 such as a keyboard, a document reading interface 32 such as a scanner, and an audio input interface 33 such as a microphone.

文字情報解析部50は、音声認識の対象となる文書内の文字情報を読み込んで文字情報に含まれる単語の出現頻度を集計する機能を有する。具体的に、文字情報解析部50は、文書内の文字情報を読み込んで形態素解析(Morphological Analysis)して単語ごとに切り出し、文書内における単語ごとの出現頻度を集計する。ここで、「文書」とは、例えば、会議で使用するテキスト文書、印刷用に作成される文書、ワードプロセッサ・ソフトで作成した文書及びプレゼンテーション・ソフトで作成した文書等の文字情報を含む文書を意味する。また、「形態素解析」とは、コンピュータの自然言語処理の一つであり、文法的な情報の注記のない自然言語のテキストデータから、対象言語の文法や、単語の品詞等の情報に基づいて、形態素(Morpheme)の単位に区切り、形態素毎に品詞等を判別する解析処理をいう。文字情報解析部50は、読み込む文書20ごとに出現単語の回数をカウントする。   The character information analysis unit 50 has a function of reading character information in a document to be subjected to speech recognition and totalizing the appearance frequency of words included in the character information. Specifically, the character information analysis unit 50 reads the character information in the document, performs morphological analysis, cuts out each word, and counts the appearance frequency of each word in the document. Here, "document" means, for example, a document including character information such as a text document used in a meeting, a document created for printing, a document created with word processor software, and a document created using presentation software Do. In addition, “morphological analysis” is one of the natural language processing of computers, and it is based on information such as the grammar of the target language and the part-of-speech of words from natural language text data without annotations of grammatical information. This is an analysis process that divides into units of morphemes and determines the part of speech etc. for each morpheme. The character information analysis unit 50 counts the number of appearance words for each read document 20.

また、文字情報解析部50は、音声認識辞書41〜43に登録されていない単語の読み方を推定する機能を有する。単語を新規に追加するか否かは、音声認識辞書41〜43の既登録内容を参照して判断する。新規追加する単語は、文字情報解析部50が過去の音声認識結果に基づいて、読み方を推定処理する。   In addition, the character information analysis unit 50 has a function of estimating how to read words not registered in the speech recognition dictionaries 41 to 43. Whether to newly add a word is determined with reference to the registered contents of the speech recognition dictionaries 41 to 43. The text information analysis unit 50 estimates the reading of the word to be newly added based on the speech recognition result in the past.

単語優先度設定部60は、集計した単語の出現頻度に基づいて単語ごとの優先度を設定する機能を有する。また、単語優先度設定部60は、前記文字情報に含まれる単語がいずれの音声認識辞書41〜43にも記録されていない新たな単語である場合、所定の係数に基づいて新たな単語の優先度を決定して設定する機能を有する。   The word priority setting unit 60 has a function of setting the priority of each word based on the counted appearance frequency of the words. Also, when the word included in the character information is a new word not recorded in any of the voice recognition dictionaries 41 to 43, the word priority setting unit 60 prioritizes the new word based on a predetermined coefficient. It has a function to determine and set the degree.

辞書格納部40は、優先度が設定された単語の複数の音声認識辞書41〜43への登録又は更新を管理する機能ブロックである。音声認識辞書としては、汎用の一般語辞書の他に、単語の使用範囲に対応させて作成される専用辞書、具体的には、プロジェクト用語辞書41、会社用語辞書42、及びユーザ用語辞書43が登録される。   The dictionary storage unit 40 is a functional block that manages registration or update of a plurality of speech recognition dictionaries 41 to 43 of words for which priority is set. As the speech recognition dictionary, in addition to the general-purpose general language dictionary, a dedicated dictionary created corresponding to the use range of words, specifically, the project term dictionary 41, the company term dictionary 42, and the user term dictionary 43 be registered.

プロジェクト用語辞書41は、特定の目的を達成するために所定期間設置されるプロジェクト毎に特化したプロジェクト用語を登録するための辞書である。プロジェクト用語辞書41は、プロジェクトの識別情報、例えばプロジェクト名に対応させてプロジェクトごとに作成される。会社用語辞書42は、ユーザの所属する会社に特化した会社用語を登録するための辞書である。会社用語辞書42は、会社の識別情報、例えば会社名に対応させて会社ごとに作成される。ユーザ用語辞書43は、発表者であるユーザに対応づけられたユーザ用語を登録するための辞書である。ユーザ用語辞書43は、ユーザの識別情報、例えばユーザ名に対応させてユーザごとに作成される。なお、辞書格納部40には、特定の業界で用いられる業界用語辞書を登録してもよい。   The project term dictionary 41 is a dictionary for registering project terms specialized for each project installed for a predetermined period to achieve a specific purpose. The project term dictionary 41 is created for each project in association with project identification information, for example, a project name. The company term dictionary 42 is a dictionary for registering company terms specialized for the company to which the user belongs. The company term dictionary 42 is created for each company in correspondence with company identification information, for example, a company name. The user term dictionary 43 is a dictionary for registering user terms associated with the user who is the presenter. The user term dictionary 43 is created for each user in association with identification information of the user, for example, a user name. The dictionary storage unit 40 may register an industry term dictionary used in a specific industry.

特に本実施形態では、辞書格納部40は、複数種類の音声認識辞書41〜43を参照して、単語の使用範囲に対応する音声認識辞書に対して登録又は更新する。具体的には、音声認識の対象となる文書内の文字情報に含まれる単語が特定のプロジェクトのみに使用され、他のプロジェクトに使用されていないものである場合、この特定のプロジェクトに対応付けてプロジェクト用語辞書41として登録する。また、音声認識の対象となる文書内の文字情報に含まれる単語が複数のプロジェクトに跨って使用され、特定のユーザに限定されて使用されるものでない場合、ユーザの所属する会社に対応付けて会社用語辞書42として登録する。さらに、音声認識の対象となる文書内の文字情報に含まれる単語が特定のユーザに限定的に使用され、他のユーザに使用されていないものである場合、この特定のユーザに対応付けてユーザ用語辞書43として登録する。   In particular, in the present embodiment, the dictionary storage unit 40 registers or updates the speech recognition dictionary corresponding to the use range of the word with reference to the plurality of speech recognition dictionaries 41 to 43. Specifically, when a word included in character information in a document to be subjected to speech recognition is used only for a specific project but not used for another project, it is associated with this specific project It is registered as a project term dictionary 41. In addition, if the word included in the character information in the document to be subjected to speech recognition is used across multiple projects and is not used limited to a specific user, the word is associated with the company to which the user belongs. Registered as the company term dictionary 42. Furthermore, when the word included in the character information in the document to be subjected to speech recognition is limited to a specific user and is not used by another user, the user is associated with the specific user. It is registered as the term dictionary 43.

音声認識変換部70は、音声認識辞書41〜43を参照しながら新たに入力される音声情報を認識して音声情報に対応する文字情報へ変換して出力する機能を有する。変換された文字情報は、画像表示装置80へと出力される。特に本実施形態では、音声認識変換部70は、入力されている音声情報に対応する文書20内の相対位置を基準として定められる重み付け特性に基づいて単語ごとの優先度を動的に変更可能に構成されている。「動的に変更」とは、音声認識のために読み込まれている文書の参照箇所をリアルタイムに検出し、重み付け特性の適用を更新していくことを意味する。ここで「相対位置」とは、文書20のページや冒頭からの行数、段落数など、任意の指標が採用される。画像表示装置80としては、例えば、ディスプレイパネルやプロジェクタ等のコンピュータ用の表示装置が挙げられる。   The speech recognition conversion unit 70 has a function of recognizing speech information newly input while referring to the speech recognition dictionaries 41 to 43, converting the speech information into character information corresponding to the speech information, and outputting the character information. The converted character information is output to the image display device 80. In the present embodiment, in particular, the speech recognition conversion unit 70 can dynamically change the priority of each word based on the weighting characteristic determined based on the relative position in the document 20 corresponding to the inputted speech information. It is configured. "Dynamically changing" means detecting in real time the reference part of the document being read for speech recognition and updating the application of the weighting characteristic. Here, as the “relative position”, any index such as the page number of the document 20, the number of lines from the beginning, the number of paragraphs, etc. is adopted. Examples of the image display device 80 include display devices for computers such as display panels and projectors.

図2は、本実施形態に係る音声認識システムの変形態様のシステム図である。図2に示すように、音声認識システム100は、オプショナルな構成要素として、さらに誤認識学習部80を備えていてもよい。誤認識学習部90は、音声認識変換部70から出力された文字情報が手動修正された場合に、修正された内容に基づいて音声認識間違いを学習する機能を有する。誤認識学習部90は、音声認識間違いの学習機能により、出力された文字情報の手動修正が繰り返される度に音声認識精度が向上する。   FIG. 2 is a system diagram of a modification of the speech recognition system according to the present embodiment. As shown in FIG. 2, the speech recognition system 100 may further include a misrecognition learning unit 80 as an optional component. The misrecognition learning unit 90 has a function of learning a speech recognition error based on the corrected content when the character information output from the speech recognition conversion unit 70 is manually corrected. The misrecognition learning unit 90 improves the speech recognition accuracy every time the manual correction of the output character information is repeated by the learning function of the speech recognition error.

図3は、スタンドアロン構成の音声認識システムのシステム図である。図3に示すように、本実施形態に係る音声認識システム100をスタンドアロンとして構成する場合、ユーザインターフェース30、文字情報解析部50、単語優先度設定部60及び音声認識変換部70と共に、システム内部に辞書格納部40を専有することが可能である。   FIG. 3 is a system diagram of a speech recognition system in a stand-alone configuration. As shown in FIG. 3, when the speech recognition system 100 according to the present embodiment is configured as a stand-alone, the user interface 30, the character information analysis unit 50, the word priority setting unit 60, and the speech recognition conversion unit 70 It is possible to exclusively use the dictionary storage unit 40.

図4は、共有システム構成の音声認識システムのシステム図である。図4に示すように、本実施形態に係る音声認識システムを共有システムとして構成する場合、ユーザインターフェース30、文字情報解析部50、単語優先度設定部60及び音声認識変換部70を備える各システム200の外部に辞書格納部40を設置し、この辞書格納部40を複数のシステム200,200で共用することが可能である。辞書格納部40は、例えば、サーバ(クラウド)上に設置することが考えられる。   FIG. 4 is a system diagram of a speech recognition system having a shared system configuration. As shown in FIG. 4, when the speech recognition system according to the present embodiment is configured as a sharing system, each system 200 includes the user interface 30, the character information analysis unit 50, the word priority setting unit 60, and the speech recognition conversion unit 70. It is possible to install the dictionary storage unit 40 outside of the above, and to share the dictionary storage unit 40 with a plurality of systems 200 and 200. The dictionary storage unit 40 may be installed on, for example, a server (cloud).

〔音声認識システムの作用、音声認識方法及び音声認識プログラム〕
次に、本実施形態に係る音声認識システム100の作用とともに、本実施形態に係る音声認識方法について説明する。
[Operation of speech recognition system, speech recognition method and speech recognition program]
Next, together with the operation of the speech recognition system 100 according to the present embodiment, a speech recognition method according to the present embodiment will be described.

本実施形態に係る音声認識方法は、音声認識の対象となる文書内の文字情報を読み込んで文字情報に含まれる単語の出現頻度を文書内の相対位置に対応付けて集計するステップと、集計した単語の出現頻度に基づいて単語ごとの優先度を設定するステップと、優先度が設定された単語の音声認識辞書41〜43への登録又は更新を管理するステップと、登録又は更新された音声認識辞書41〜43を参照しながら新たに入力される音声情報を認識して音声情報に対応する文字情報へと変換して出力するステップと、を備え、音声認識辞書41〜43は、単語の使用範囲に対応させて複数種類が設けられており、登録又は更新を管理するステップでは、複数種類の音声認識辞書41〜43を参照して、単語の使用範囲に対応する音声認識辞書に対して登録又は更新することに特徴を有する。本実施形態に係る音声認識方法は、本方法を具現化するための手順が記述された音声認識プログラムをコンピュータが実行することにより実現される。   The speech recognition method according to the present embodiment includes the steps of reading character information in a document to be subjected to speech recognition and totalizing the appearance frequency of words included in the character information in association with relative positions in the document; The steps of setting the priority for each word based on the appearance frequency of the words, managing the registration or update of the words having the priority set in the speech recognition dictionary 41 to 43, and the speech recognition registered or updated Recognizing the voice information newly input while referring to the dictionaries 41 to 43, converting the information into character information corresponding to the voice information, and outputting the character information; and the voice recognition dictionary 41 to 43 use a word A plurality of types are provided corresponding to the range, and in the step of managing registration or updating, a plurality of types of speech recognition dictionaries 41 to 43 are referred to, and a speech recognition dictionary corresponding to a use range of words is selected. Characterized in that to register or update. The speech recognition method according to the present embodiment is realized by a computer executing a speech recognition program in which a procedure for embodying the method is described.

図5は、音声認識方法の手順を示すフローチャートである。図6は、本実施形態に係る音声認識方法の処理工程図である。なお、このフローチャート及び処理工程図には、説明の便宜上、ユーザの操作手順も含まれている。   FIG. 5 is a flowchart showing the procedure of the speech recognition method. FIG. 6 is a process diagram of the speech recognition method according to the present embodiment. The flow chart and the process chart also include the operation procedure of the user for the convenience of description.

まず、ユーザ10は、会議開始前に会議で使用する資料(文書)20を音声認識システム100に読み込む(S310)。文書20が電子ファイルにより用意されているのであれば、当該文書20である電子ファイルを音声認識システム100に読み込ませる。文書20が印刷物として用意されているなら、スキャナ等の文書読み取りインターフェース32を介して読み込む。文書読み取りインターフェース32は、光学的に文書20を読み込んで得られた画像情報から公知のOCR技術を利用して変換した文字情報を出力する。なお、ステップS310において、会議のプロジェクト名があれば、ユーザ10は、キーボード等の文字入力インターフェース31を介して、プロジェクト名を併せて入力する。   First, the user 10 reads the material (document) 20 used in the conference into the speech recognition system 100 before the start of the conference (S310). If the document 20 is prepared as an electronic file, the electronic file that is the document 20 is read into the speech recognition system 100. If the document 20 is prepared as a printed matter, it is read via a document reading interface 32 such as a scanner. The document reading interface 32 outputs character information converted from image information obtained by optically reading the document 20 using known OCR technology. In step S310, if there is a project name of the conference, the user 10 also inputs the project name through the character input interface 31 such as a keyboard.

次に、辞書格納部40に登録する文章情報、例えば、会議資料情報について説明する。図7は、辞書格納部40に登録する会議資料情報の説明図である。   Next, text information to be registered in the dictionary storage unit 40, for example, meeting material information, will be described. FIG. 7 is an explanatory diagram of meeting material information registered in the dictionary storage unit 40. As shown in FIG.

図7に示すように、辞書格納部40には、文書20内のヘッダ21とボディ22に分けて、各種情報が項目ごとに登録される。ヘッダ21の資料情報には、例えば、資料名、資料の形式及び頁数等が登録される。資料作成者情報には、例えば、資料作成者の氏名や所属先等が登録される。会議情報には、会議の開催日時、参加人数及び参加者名が登録される。プロジェクト情報には、例えば、プロジェクト名(ID)等が登録される。ヘッダ21の項目や各項目における登録情報は例示であって、列挙した情報に限られない。   As shown in FIG. 7, in the dictionary storage unit 40, various information is registered for each item, divided into the header 21 and the body 22 in the document 20. In the material information of the header 21, for example, the material name, the format of the material, the number of pages, etc. are registered. For example, the name and affiliation of the material creator are registered in the material creator information. In the meeting information, the date and time of the meeting, the number of participants and the names of the participants are registered. For example, a project name (ID) or the like is registered in the project information. The items of the header 21 and the registration information in each item are examples and not limited to the listed information.

また、文書20内のボディ22には、出現単語及び回数が登録される。出現単語及び回数は、各プロジェクトにおいて、文書20に対応させて登録される。   Also, in the body 22 in the document 20, appearance words and the number of times are registered. The appearing words and the number of times are registered in correspondence with the document 20 in each project.

また、入力されたプロジェクト名及び/又はユーザ名に基づいて、辞書格納部40が管理する既登録のプロジェクト用語辞書41及び/又は会社用語辞書42を検索し、該当する用語辞書があれば、辞書格納部40から読み出す(S320)。この既登録辞書の読み出し手順は、既登録辞書が存在する場合にのみ行われるので、オプショナルな手順である。   Also, based on the input project name and / or user name, the registered project term dictionary 41 and / or company term dictionary 42 managed by the dictionary storage unit 40 are searched, and if there is the corresponding term dictionary, the dictionary It reads from the storage unit 40 (S320). The procedure for reading out the already registered dictionary is an optional procedure because it is performed only when the already registered dictionary is present.

文字情報解析部50は、文書20内の文字情報を読み込んで形態素解析を行う(S330)。文字情報解析部50による形態素解析は、文字情報を頁ごとに形態素の単位に区切り、形態素ごとに品詞等を判別する解析処理を行う。   The character information analysis unit 50 reads character information in the document 20 and performs morphological analysis (S330). The morpheme analysis by the character information analysis unit 50 performs an analysis process in which character information is divided into units of morpheme for each page, and a part of speech is determined for each morpheme.

また、文字情報解析部50は、形態素解析した単語の出現頻度を抽出する(S340)。単語の出現頻度は、図7において説明したように、各プロジェクトにおいて、文書20ごとに登録される。   In addition, the character information analysis unit 50 extracts the appearance frequency of the morphologically analyzed word (S340). The appearance frequency of the word is registered for each document 20 in each project as described in FIG.

さらに、文字情報解析部50は、辞書格納部40が管理する音声認識辞書41〜43のいずれにも登録されていない単語を新規に追加し、新規追加する単語の読み方を推定する(S350)。音声認識辞書41〜43に単語を新規に追加するか否かは、辞書格納部40が管理する音声認識辞書41〜43の既登録内容を参照して判断する。新規追加する単語は、文字情報解析部50が過去の音声認識結果に基づいて、読み方を推定処理する。   Furthermore, the character information analysis unit 50 newly adds a word not registered in any of the speech recognition dictionaries 41 to 43 managed by the dictionary storage unit 40, and estimates how to read the word to be newly added (S350). Whether to newly add a word to the speech recognition dictionary 41 to 43 is determined with reference to the already registered contents of the speech recognition dictionary 41 to 43 managed by the dictionary storage unit 40. The text information analysis unit 50 estimates the reading of the word to be newly added based on the speech recognition result in the past.

ここで、図8を参照して、使用範囲ごとの音声認識辞書41〜43の構築について説明する。図8は、会社用語、プロジェクト用語及びユーザ用語の構築の説明図である。   Here, with reference to FIG. 8, construction of the speech recognition dictionaries 41 to 43 for each use range will be described. FIG. 8 is an explanatory diagram of construction of company terms, project terms and user terms.

図8に示すように、会社においては、プロジェクトごとに複数の会議が存在する。本実施形態の辞書格納部40は、プロジェクト用語辞書41、会社用語辞書42及びユーザ用語辞書43を管理する(図1及び図2参照)。会社用語は、複数のプロジェクトを跨いで使用される単語である。プロジェクト用語は、同一のプロジェクトで複数回開催される会議において横断的に使用される単語である。ユーザ用語は、当該ユーザが出席する会議や当該ユーザが所属するプロジェクトで横断的に使用される単語である。   As shown in FIG. 8, in a company, there are a plurality of meetings for each project. The dictionary storage unit 40 of this embodiment manages a project term dictionary 41, a company term dictionary 42, and a user term dictionary 43 (see FIGS. 1 and 2). Corporate terms are words used across multiple projects. Project terms are words that are used crosswise in multiple meetings of the same project. The user term is a word used in a cross section in a meeting in which the user attends and in a project to which the user belongs.

辞書格納部40は、新たに登録しようとしている単語が既存のいずれの音声認識辞書にも登録されていない場合、当該単語を使用するユーザに対応付けた新たなユーザ用語辞書43に当該単語を優先度と共に登録する。一方、辞書格納部40は、登録しようとしている単語が既存のユーザ用語辞書43のみに登録されている場合、この既存のユーザ用語辞書43に登録されたこの単語の優先度を更新する。   When the word to be newly registered is not registered in any existing voice recognition dictionary, the dictionary storage unit 40 gives priority to the word in the new user term dictionary 43 associated with the user who uses the word. Register with the degree. On the other hand, when the word to be registered is registered only in the existing user term dictionary 43, the dictionary storage unit 40 updates the priority of this word registered in the existing user term dictionary 43.

辞書格納部40は、入力された文書がプロジェクト用語辞書41に登録されたいずれのプロジェクトにも該当しない新たなプロジェクトに関するものである場合、当該プロジェクトに対応付けた新たなプロジェクト用語辞書43に当該単語を優先度と共に登録する。一方、辞書格納部40は、入力された文書がプロジェクト用語辞書41に登録された既存のプロジェクトに該当するものである場合、この既存のプロジェクト用語辞書41に登録されたこの単語の優先度を更新する。   When the input document relates to a new project that does not correspond to any project registered in the project term dictionary 41, the dictionary storage unit 40 adds the word to the new project term dictionary 43 associated with the project. Register with with priority. On the other hand, when the input document corresponds to an existing project registered in the project term dictionary 41, the dictionary storage unit 40 updates the priority of this word registered in the existing project term dictionary 41. Do.

辞書格納部40は、登録しようとしている単語がプロジェクト用語辞書41に登録された複数のプロジェクトに既に登録されている場合、当該単語を会社用語辞書42に優先度と共に登録する。一方、辞書格納部40は、登録しようとしている単語が既に会社用語辞書42に登録されている場合、この会社用語辞書42に登録されたこの単語の優先度を更新する。   When the word to be registered is already registered in a plurality of projects registered in the project term dictionary 41, the dictionary storage unit 40 registers the word in the company term dictionary 42 together with the priority. On the other hand, when the word to be registered is already registered in the company term dictionary 42, the dictionary storage unit 40 updates the priority of this word registered in the company term dictionary 42.

次に、単語優先度設定部60は、文字情報解析部50の単語の出現頻度を集計し、単語ごとの優先度を設定する(S360)。新たに設定された優先度は、辞書格納部40によりいずれかの音声認識辞書41〜43へ登録又は更新される(S370)。   Next, the word priority setting unit 60 counts the appearance frequency of the words in the character information analysis unit 50, and sets the priority for each word (S360). The newly set priority is registered or updated in one of the speech recognition dictionaries 41 to 43 by the dictionary storage unit 40 (S370).

次に、図9を参照して、重み付けに相当する単語ごとの優先度の算出法について説明する。図9は、単語ごとの優先度の算出法の説明図である。   Next, with reference to FIG. 9, a method of calculating the priority for each word corresponding to the weighting will be described. FIG. 9 is an explanatory diagram of a method of calculating the priority for each word.

図9に示すように、単語優先度設定部60は、会議資料内に出現した単語(形態素)の出現頻度を集計する。出現単語の集計処理は、会議ID、単語、該当する辞書及び頻度の項目ごとに行われる。図9において、例えば、1段目は、会議IDが182で、出現単語が「インバウンド」、該当辞書が「一般語」及び出現頻度が1である。2段目は、会議IDが182で、出現単語が「ワークサイズ」、該当辞書が「会社用語」及び出現頻度が4である。3段目は、会議IDが182で、出現単語が「Aプロ」、該当辞書が「プロジェクト用語」及び出現頻度が2である。4段目は、会議IDが182で、出現単語が「XXX」、該当辞書が「なし」及び出現頻度が2である。このような手順で、会議前に単語ごとの出現頻度を更新する。   As shown in FIG. 9, the word priority setting unit 60 counts the appearance frequency of the words (morphemes) appearing in the conference material. A tabulation process of appearance words is performed for every item of meeting ID, a word, an applicable dictionary, and a frequency. In FIG. 9, for example, in the first row, the conference ID is 182, the appearance word is “inbound”, the corresponding dictionary is “general word”, and the appearance frequency is 1. In the second row, the meeting ID is 182, the appearing word is “work size”, the corresponding dictionary is “company term”, and the appearance frequency is 4. In the third row, the meeting ID is 182, the appearance word is “A pro”, the corresponding dictionary is “project term”, and the appearance frequency is 2. In the fourth row, the meeting ID is 182, the appearance word is “XXX”, the corresponding dictionary is “none”, and the appearance frequency is 2. In such a procedure, the appearance frequency for each word is updated before the meeting.

単語優先度設定部60が実行する優先度の更新演算は、種々の考え方が適用可能であるが、単語ごとに、更新前の優先度に対し、新たに取得された出現頻度に所定の重み付け、例えば、係数を乗じたものを加算して、更新後の優先度とすることが考えられる。例えば、一般語、会社用語及びプロジェクト用語の場合、「更新後の語彙優先度」は「更新前の語彙優先度+辞書固有に設定された係数×文書内の単語出現頻度」として計算できる。ここで、辞書固有の係数は、例えば、一般語を0.1、会社用語を0.2及びプロジェクト用語を0.3とする。したがって、狭い範囲で用いられる単語ほど(ここでは、プロジェクト用語>会社用語>一般語の順)係数が高くなり、優先度が高くなる。また、文書内に頻繁に出てくる単語ほど優先度が高くなる。   Various ideas can be applied to the priority update calculation executed by the word priority setting unit 60. However, for each word, the newly acquired appearance frequency is weighted with respect to the pre-update priority, For example, it is conceivable to add the product multiplied by a coefficient to obtain an updated priority. For example, in the case of common words, company terms and project terms, "updated vocabulary priority" can be calculated as "previous vocabulary priority + dictionary specific coefficient x word occurrence frequency in document". Here, the dictionary specific coefficients are, for example, 0.1 for common words, 0.2 for company terms, and 0.3 for project terms. Therefore, as the words used in a narrow range (here, in order of project terms> company terms> general terms), the coefficient becomes higher and the priority becomes higher. Also, the more frequently words that appear in the document, the higher the priority.

単語が上記に含まれない新しい単語である場合は、所定の係数をかけて暫定的な優先度を決定する。例えば、「優先度」=「初期値(定数)×文書内の単語出現頻度」で新たな優先度を設定可能である。ここで、初期値は、単語の出現頻度に応じて決定可能である。実際は、単語の出現頻度が2倍になると優先度が2倍になるわけではないので、対数をとることも考えられる。   If the word is a new word not included above, a predetermined factor is applied to determine a tentative priority. For example, a new priority can be set by “priority” = “initial value (constant) × word appearance frequency in document”. Here, the initial value can be determined according to the appearance frequency of the word. In fact, if the frequency of occurrence of a word is doubled, the priority is not doubled, so it is conceivable to take logarithms.

図10を参照して、入力されている音声情報に対応する文書内の相対位置を基準として定められる重み付け特性について説明する。図10は、文書20として会議中に投影されるプレゼンテーション用資料を用いた場合に、文書内の相対位置として現在表示しているプレゼンテーションスライドの頁を基準として重み付けを定めるための重み付け特性を例示している。   Referring to FIG. 10, the weighting characteristic determined based on the relative position in the document corresponding to the input speech information will be described. FIG. 10 illustrates a weighting characteristic for determining weighting based on the page of the presentation slide currently displayed as a relative position in the document when using the presentation material projected during the meeting as the document 20. ing.

図10に示すように、会議で用いられる文書において、現在参照されている、すなわち発表者が話している箇所を基準として重み付けが設定される。プレゼンテーション文書中、現在n(nは自然数)頁目のスライドを表示しているものとする。現在表示中のn頁目25に出現する単語は、この頁を投影しながら会議を進めている発表者が喋る可能性が最も高いものと考えられる。そのため当該頁に出現する単語に対しては重み付けを最大に設定する。以前に話した内容、すなわち、1頁目から(n−1)頁目26の表示済みの内容は、既に触れたものであるため、今後の発言にも登場する可能性があるため、重み付けを高めに設定する必要がある。また、直近の頁に出現した単語ほど発表者が言及する可能性が高くなるため、直近の頁ほど高く、過去に遡るほどに低くなるように、重み付けを変化させる。現時点で未表示の単語、すなわちn頁目後27の単語は、発表中に出てくる可能が低く、現時点における重み付けを低く設定する。なお、この重み付け特性の設定は、最終的な優先度を決定する演算する際の重み付け係数として反映される。   As shown in FIG. 10, in the document used in the conference, the weighting is set based on the place currently referred to, that is, the place where the presenter is speaking. In the presentation document, it is assumed that a slide of page n (n is a natural number) is currently displayed. It is considered that the word appearing on the currently displayed n-th page 25 is most likely to be heard by the presenter who is in the conference while projecting this page. Therefore, the weighting is set to the maximum for the words appearing on the page. Since the contents of the previous talk, that is, the displayed contents of the first page to the (n-1) page 26 have already been touched, weighting may be applied since they may appear in future speeches. Need to set higher. In addition, since the word appearing on the nearest page is more likely to be referred to by the presenter, the weighting is changed so that the nearest page is higher and the back is in the past. The currently undisplayed word, that is, the word after the nth page 27 is unlikely to appear during the presentation, and the current weighting is set low. The setting of the weighting characteristic is reflected as a weighting factor at the time of calculation for determining the final priority.

具体的に、会議中は、発表者が参照している表示中のスライドの頁に応じて、最終的な単語ごとの優先頻度を算出する。この演算は、音声認識辞書に設定された優先度にユーザ固有の係数及び重み付け特性によって定まる重み付け係数を乗じて計算することができる。例えば、「優先度(最終)」=「辞書によって予め設定されている優先度×ユーザ固有の係数×表示中のスライドの頁に設定されている係数」となる。ここで、ユーザ固有の係数は、発表者に対応付けて作成されているユーザ用語辞書43に含まれる場合は大きい係数、含まれない場合は小さい係数とする。例えば発表者に対応付けられているユーザ用語辞書43に含まれる場合は1.5、それ以外は1.0とする。表示中のスライドの頁に設定されている係数は、図10の重み付け特性を参照して決定する。   Specifically, during the meeting, the final priority frequency for each word is calculated according to the page of the slide currently displayed on which the presenter is referring. This operation can be calculated by multiplying the priority set in the speech recognition dictionary by a weighting factor determined by a user-specific factor and a weighting characteristic. For example, “priority (final)” = “priority set in advance by the dictionary × coefficient unique to the user × coefficient set to the page of the slide being displayed”. Here, the coefficient unique to the user is a large coefficient if included in the user term dictionary 43 created in association with the presenter, and a small coefficient otherwise. For example, when it is included in the user term dictionary 43 associated with the presenter, it is 1.5, and the others are 1.0. The coefficients set for the page of the slide being displayed are determined with reference to the weighting characteristics of FIG.

次に、ユーザ10の音声は、マイク等の音声入力インターフェース33を介して、音声認識システム100へ入力される(S380)。また、ユーザ10が参照している文書中の相対位置についての情報も文書内の相対位置情報として、例えば頁数といった数値で音声認識システム100へ入力される。音声及び相対位置情報が入力されると、音声認識変換部70は、作成された音声認識辞書を参照しながら、最終的な単語ごとの優先度を決定し、最終的な単語ごとの優先度に基づいて音声情報を文字情報へと変換(テキスト化)する(S390)。出力された文字情報は、画像表示装置80へと出力表示される。   Next, the voice of the user 10 is input to the voice recognition system 100 via the voice input interface 33 such as a microphone (S380). In addition, information on the relative position in the document referred to by the user 10 is also input to the speech recognition system 100 as relative position information in the document, for example, as a numerical value such as the number of pages. When speech and relative position information are input, the speech recognition conversion unit 70 determines the final word-by-word priority while referring to the created speech recognition dictionary, and determines the final word-by-word priority. Based on the voice information, it is converted into text information (textification) (S390). The output character information is output to the image display device 80 and displayed.

出力された文字情報に音声認識間違いがあった場合、ユーザ10は、キーボード等の文字入力インターフェース31を介して、出力された文字情報を手動修正する(S400)。図2で説明した音声認識システム100の変形態様によれば、オプショナルな構成要素として誤認識学習部90を備えている。この変形態様の場合、誤認識学習部90は、手動修正された内容から音声認識間違いを学習する(S410)。   If there is a voice recognition error in the output character information, the user 10 manually corrects the output character information via the character input interface 31 such as a keyboard (S400). According to the modification of the speech recognition system 100 described with reference to FIG. 2, the false recognition learning unit 90 is provided as an optional component. In the case of this modification, the misrecognition learning unit 90 learns a speech recognition error from the manually corrected content (S410).

単語優先度設定部60は、使用範囲を跨いで用いられる単語をそれぞれの用途の音声認識辞書に登録する(S420)。上述したように、「使用歯に」とは、会議用語やプロジェクト用語等の単語が用いられる用途を意味する(図1、図2及び図8参照)。即ち、ステップS420において、複数のブロジェクト間で横断して用いられる単語や、複数のプロジェクトを跨いで用いられる単語を抽出し、それぞれプロジェクト用語や会社用語として登録する。   The word priority setting unit 60 registers the word used across the use range in the speech recognition dictionary for each use (S420). As described above, “in use teeth” means applications in which words such as conference terms and project terms are used (see FIGS. 1, 2 and 8). That is, in step S420, a word used across a plurality of projects and a word used across a plurality of projects are extracted and registered as project terms and company terms respectively.

以上説明したように、本実施形態に係る音声認識システム100は、ユーザに特化したユーザ用語辞書、プロジェクトに特化したプロジェクト用語辞書、及び会社に特化した会社用語辞書が用いられるので、音声認識の精度を向上させることができる。また、発音される文書内の相対位置が変化していっても、すなわち、会議等の進行に応じて話題が変化していっても、文入力されている音声情報に対応する文書内の相対位置を基準として定められる重み付け特性に基づいて単語ごとの優先度が動的に変更されるので、音声認識の精度を常に高く維持することができる。   As described above, the speech recognition system 100 according to the present embodiment uses the user term dictionary specialized for the user, the project term dictionary specialized for the project, and the company term dictionary specialized for the company. The accuracy of recognition can be improved. In addition, even if the relative position in the document to be pronounced changes, that is, even if the topic changes in accordance with the progress of the conference, etc., the relative in the document corresponding to the speech information input. Since the priority of each word is dynamically changed based on the weighting characteristic determined based on the position, the accuracy of the speech recognition can be always kept high.

上述したように、本実施形態の辞書格納部40が管理する音声認識辞書には、一般用語辞書の他、例えば、プロジェクトごとのプロジェクト用語辞書41、会議ごとの会議用語辞書42及び資料作成者(発表者)ごとのユーザ用語辞書43等が登録される。その他、辞書格納部40には、特定の業界で用いられる業界用語辞書が登録される。   As described above, the speech recognition dictionary managed by the dictionary storage unit 40 of this embodiment includes, in addition to the general term dictionary, for example, the project term dictionary 41 for each project, the meeting term dictionary 42 for each meeting, User term dictionary 43 etc. for each presenter is registered. In addition, in the dictionary storage unit 40, an industry term dictionary used in a specific industry is registered.

したがって、ユーザ10が特定のプロジェクトに所属し、そのプロジェクト特有の「プロジェクト用語」を発言しても、プロジェクト用語辞書41が参照されるので、音声認識の精度を高く維持することができる。また、ユーザ10が社内でのみ用いられるいわゆる「社内用語」を発言しても、会社用語辞書42が参照されるので、音声認識の精度を高く維持することができる。さらに、ユーザ10の発言に言葉の癖があったとしても、ユーザの性向に依存する「ユーザ用語」を登録したユーザ辞書43が参照されるので、音声認識の精度を高く維持することができる。加えて、ユーザ10が業界に特化したいわゆる「業界用語」を発言しても、業界用語辞書が参照される、音声認識の精度を高く維持することができる。   Therefore, even if the user 10 belongs to a specific project and speaks “project terms” specific to the project, the project term dictionary 41 is referred to, so that the speech recognition accuracy can be maintained high. Further, even if the user 10 speaks a so-called "in-house term" used only in the office, the company term dictionary 42 is referred to, so that the speech recognition accuracy can be maintained high. Furthermore, even if the user 10 speaks a word, since the user dictionary 43 that has registered "user terms" depending on the user's tendency is referred to, it is possible to maintain high speech recognition accuracy. In addition, even if the user 10 speaks the so-called "industry term" specialized for the industry, the accuracy of the speech recognition in which the industry term dictionary is referred to can be maintained high.

100…音声認識システム、40…辞書格納部、50…文字情報解析部、60…単語優先度設定部、70…音声情報変換部、90…誤認識学習部。 DESCRIPTION OF SYMBOLS 100 ... Speech recognition system, 40 ... Dictionary storage part, 50 ... Character information analysis part, 60 ... Word priority setting part, 70 ... Speech information conversion part, 90 ... False recognition learning part.

Claims (7)

音声情報を認識して文字情報へと変換する音声認識システムであって、
音声認識の対象となる文書内の文字情報を読み込んで前記文字情報に含まれる単語の出現頻度を集計する文字情報解析部と、
集計した前記単語の出現頻度に基づいて単語ごとの優先度を設定する単語優先度設定部と、
前記優先度が設定された単語の音声認識辞書への登録又は更新を管理する辞書格納部と、
登録又は更新された前記音声認識辞書を参照しながら新たに入力される音声情報を認識して前記音声情報に対応する文字情報へと変換して出力する音声認識変換部と、を備え、
前記音声認識辞書は、前記単語の使用範囲に対応させて複数種類が設けられており、
前記辞書格納部は、複数種類の前記音声認識辞書を参照して、前記単語の使用範囲に対応する音声認識辞書に対して登録又は更新する、
音声認識システム。
A speech recognition system that recognizes speech information and converts it into character information,
A character information analysis unit which reads character information in a document to be subjected to speech recognition and counts the appearance frequency of words included in the character information;
A word priority setting unit that sets the priority of each word based on the counted appearance frequency of the words;
A dictionary storage unit for managing registration or update of the words for which the priority is set in the voice recognition dictionary;
And a voice recognition conversion unit that recognizes voice information newly input while referring to the voice recognition dictionary registered or updated, converts the voice information into character information corresponding to the voice information, and outputs the character information.
The speech recognition dictionary is provided in a plurality of types corresponding to the use range of the word,
The dictionary storage unit registers or updates a voice recognition dictionary corresponding to a use range of the word with reference to a plurality of types of voice recognition dictionaries.
Speech recognition system.
前記複数種類の音声認識辞書は、1)〜3)の中から複数選択される、
請求項1に記載の音声認識システム。
1)前記文書を使用するユーザに対応づけられたユーザ用語辞書;
2)前記文書を使用するユーザが所属するプロジェクトに対応づけられたプロジェクト用語辞書;及び
3)前記文書を使用するユーザが所属する会社に対応付けられた会社用語辞書。
The plurality of speech recognition dictionaries are selected from 1) to 3).
The speech recognition system according to claim 1.
1) a user term dictionary associated with a user who uses the document;
2) a project term dictionary associated with a project to which the user who uses the document belongs; and 3) a company term dictionary associated with a company to which the user who uses the document belongs.
前記音声認識変換部は、参照する前記音声認識辞書の種類に対応させて前記優先度を決定するための係数を変更する、請求項1又は2に記載の音声認識システム。   The speech recognition system according to claim 1 or 2, wherein the speech recognition conversion unit changes a coefficient for determining the priority in accordance with a type of the speech recognition dictionary to be referred to. 前記単語ごとの優先度は、入力されている前記音声情報に対応する前記文書内の相対位置を基準として定められる重み付け特性に基づいて動的に変更される、
請求項1乃至3のいずれか一項に記載の音声認識システム。
The priority for each word is dynamically changed based on a weighting characteristic determined based on a relative position in the document corresponding to the input speech information.
The speech recognition system according to any one of claims 1 to 3.
前記辞書格納部は、前記文字情報に含まれる単語がいずれの前記音声認識辞書に記録されていない新たな単語である場合、所定の係数に基づいて前記新たな単語の優先度を決定して記録する、請求項1乃至4のいずれか一項に記載の音声認識システム。   When the word included in the character information is a new word not recorded in any of the voice recognition dictionaries, the dictionary storage unit determines the priority of the new word based on a predetermined coefficient and records the word. The speech recognition system according to any one of claims 1 to 4, wherein 前記音声認識変換部から出力された文字情報が手動で修正された場合に、修正された内容に基づいて音声認識間違いを学習する誤認識学習部をさらに備える、請求項1乃至5のいずれか一項に記載の音声認識システム。   6. The false recognition learning unit according to any one of claims 1 to 5, further comprising a false recognition learning unit that learns a voice recognition error based on the corrected content when the character information output from the voice recognition conversion unit is manually corrected. The speech recognition system as described in a paragraph. 音声情報を認識して文字情報へと変換する音声認識方法であって、
音声認識の対象となる文書内の文字情報を読み込んで前記文字情報に含まれる単語の出現頻度を集計するステップと、
集計した前記単語の出現頻度に基づいて単語ごとの優先度を設定するステップと、
前記優先度が設定された単語の音声認識辞書への登録又は更新を管理するステップと、
登録又は更新された前記音声認識辞書を参照しながら新たに入力される音声情報を認識して前記音声情報に対応する文字情報へと変換して出力するステップと、を備え、
前記音声認識辞書は、前記単語の使用範囲に対応させて複数種類が設けられており、
前記登録又は更新を管理するステップでは、複数種類の前記音声認識辞書を参照して、前記単語の使用範囲に対応する音声認識辞書に対して登録又は更新する、
音声認識方法。
A speech recognition method for recognizing speech information and converting it into character information,
Reading character information in a document to be subjected to speech recognition and totalizing the appearance frequency of words included in the character information;
Setting a priority for each word based on the counted appearance frequency of the words;
Managing registration or update of the word having the priority set in a speech recognition dictionary;
Recognizing the newly input voice information while referring to the registered or updated voice recognition dictionary, converting it into character information corresponding to the voice information, and outputting the character information;
The speech recognition dictionary is provided in a plurality of types corresponding to the use range of the word,
In the step of managing registration or update, referring to a plurality of types of the speech recognition dictionary, registration or update is performed on the speech recognition dictionary corresponding to the use range of the word.
Speech recognition method.
JP2017254709A 2017-12-28 2017-12-28 Speech recognition system and speech recognition method Active JP6985138B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017254709A JP6985138B2 (en) 2017-12-28 2017-12-28 Speech recognition system and speech recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017254709A JP6985138B2 (en) 2017-12-28 2017-12-28 Speech recognition system and speech recognition method

Publications (2)

Publication Number Publication Date
JP2019120763A true JP2019120763A (en) 2019-07-22
JP6985138B2 JP6985138B2 (en) 2021-12-22

Family

ID=67306288

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017254709A Active JP6985138B2 (en) 2017-12-28 2017-12-28 Speech recognition system and speech recognition method

Country Status (1)

Country Link
JP (1) JP6985138B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220035222A (en) * 2019-11-25 2022-03-21 아이플라이텍 캄파니 리미티드 Speech recognition error correction method, related devices, and readable storage medium
KR20230040951A (en) * 2020-05-18 2023-03-23 아이플라이텍 캄파니 리미티드 Speech recognition method, apparatus and device, and storage medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178087A (en) * 2004-12-21 2006-07-06 Internatl Business Mach Corp <Ibm> Caption generator, retrieval device, method for integrating document processing and speech processing together, and program
JP2015040908A (en) * 2013-08-20 2015-03-02 株式会社リコー Information processing apparatus, information update program, and information update method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178087A (en) * 2004-12-21 2006-07-06 Internatl Business Mach Corp <Ibm> Caption generator, retrieval device, method for integrating document processing and speech processing together, and program
JP2015040908A (en) * 2013-08-20 2015-03-02 株式会社リコー Information processing apparatus, information update program, and information update method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
山崎裕紀 他: "講義音声認識における講義スライド情報の活用", 情報処理学会研究報告, vol. 2006, no. 136, JPN6021033511, 22 December 2006 (2006-12-22), JP, pages 221 - 226, ISSN: 0004579162 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220035222A (en) * 2019-11-25 2022-03-21 아이플라이텍 캄파니 리미티드 Speech recognition error correction method, related devices, and readable storage medium
KR102648306B1 (en) 2019-11-25 2024-03-15 아이플라이텍 캄파니 리미티드 Speech recognition error correction method, related devices, and readable storage medium
KR20230040951A (en) * 2020-05-18 2023-03-23 아이플라이텍 캄파니 리미티드 Speech recognition method, apparatus and device, and storage medium
KR102668530B1 (en) 2020-05-18 2024-05-24 아이플라이텍 캄파니 리미티드 Speech recognition methods, devices and devices, and storage media

Also Published As

Publication number Publication date
JP6985138B2 (en) 2021-12-22

Similar Documents

Publication Publication Date Title
US11573993B2 (en) Generating a meeting review document that includes links to the one or more documents reviewed
US11270060B2 (en) Generating suggested document edits from recorded media using artificial intelligence
US11080466B2 (en) Updating existing content suggestion to include suggestions from recorded media using artificial intelligence
US11263384B2 (en) Generating document edit requests for electronic documents managed by a third-party document management service using artificial intelligence
US8756064B2 (en) Method and system for creating frugal speech corpus using internet resources and conventional speech corpus
WO2018205389A1 (en) Voice recognition method and system, electronic apparatus and medium
US11392754B2 (en) Artificial intelligence assisted review of physical documents
WO2020258502A1 (en) Text analysis method and apparatus, computer apparatus and computer storage medium
US20200293605A1 (en) Artificial intelligence assisted review of electronic documents
US9697819B2 (en) Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis
US20140136198A1 (en) Correcting text with voice processing
US11132108B2 (en) Dynamic system and method for content and topic based synchronization during presentations
US20180226073A1 (en) Context-based cognitive speech to text engine
KR101633556B1 (en) Apparatus for grammatical error correction and method using the same
US10062384B1 (en) Analysis of content written on a board
Seljan et al. Combined automatic speech recognition and machine translation in business correspondence domain for english-croatian
CN109670040B (en) Writing assistance method and device, storage medium and computer equipment
Liu et al. Towards spoken clinical-question answering: evaluating and adapting automatic speech-recognition systems for spoken clinical questions
JP6425493B2 (en) Program, apparatus and method for estimating evaluation level for learning item based on human speech
US9679566B2 (en) Apparatus for synchronously processing text data and voice data
JP2019120763A (en) Voice recognition system and voice recognition method
US8571262B2 (en) Methods of object search and recognition
JP4089861B2 (en) Voice recognition text input device
US11960847B2 (en) Systems and methods for generating responses for an intelligent virtual
Sherstinova et al. Everyday conversations: a comparative study of expert transcriptions and ASR outputs at a lexical level

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180620

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210826

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211125

R150 Certificate of patent or registration of utility model

Ref document number: 6985138

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150