JP2023147490A - Processing device, processing method and processing program - Google Patents
Processing device, processing method and processing program Download PDFInfo
- Publication number
- JP2023147490A JP2023147490A JP2022055008A JP2022055008A JP2023147490A JP 2023147490 A JP2023147490 A JP 2023147490A JP 2022055008 A JP2022055008 A JP 2022055008A JP 2022055008 A JP2022055008 A JP 2022055008A JP 2023147490 A JP2023147490 A JP 2023147490A
- Authority
- JP
- Japan
- Prior art keywords
- information
- attribute
- processor
- element information
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 77
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000000034 method Methods 0.000 claims description 60
- 238000006243 chemical reaction Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 description 50
- 238000004891 communication Methods 0.000 description 33
- 230000015654 memory Effects 0.000 description 33
- 238000010586 diagram Methods 0.000 description 24
- 238000004458 analytical method Methods 0.000 description 17
- 230000000875 corresponding effect Effects 0.000 description 16
- 239000000463 material Substances 0.000 description 15
- 230000009471 action Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 230000010365 information processing Effects 0.000 description 7
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010230 functional analysis Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本開示は、音声情報をテキスト情報に変換して編集できる処理装置、処理方法、処理プログラムに関する。 The present disclosure relates to a processing device, a processing method, and a processing program that can convert and edit audio information into text information.
音声情報をテキスト情報に変換する音声認識が一般的に用いられている。また、音声を発した話者を識別する装置が一般的に用いられている。例えば、特許文献1は、会議等の音声情報から議事録を生成するシステムを開示する。また、引用文献2は、話者を識別する装置を開示する。しかしながら、特許文献1は、音声認識により得られたテキスト情報を分割し、分割により得られたエレメント情報に意味及び話者等を示す属性情報を対応付け、出力用のフォームに含まれる項目に関連付けることを開示しない。
Speech recognition, which converts voice information into text information, is commonly used. Additionally, devices are commonly used to identify the speaker who uttered the voice. For example,
本実施形態は、上述した背景からなされたものであり、音声認識により得られたテキスト情報を一又は複数のエレメント情報に分割し、エレメント情報それぞれに属性情報を対応付けて出力情報を生成することを課題とする。また、本実施形態は、エレメント情報に、さらに、話者情報を対応付けて出力情報を生成することを課題とする。 This embodiment was developed based on the above-mentioned background, and involves dividing text information obtained through speech recognition into one or more element information, and generating output information by associating attribute information with each element information. The task is to Furthermore, the present embodiment aims to generate output information by further associating element information with speaker information.
本開示に係る処理装置は、少なくとも一つのプロセッサを含む処理装置であって、前記少なくとも一つのプロセッサは、ユーザによる入力操作に基づいて、一又は複数の話者の発言の内容を含む音声情報の入力を受け付け、受け付けた前記音声情報に基づいて、前記一又は複数の話者の発言の内容を示すテキスト情報を生成し、生成した前記テキスト情報を一又は複数のエレメント情報に分割し、分割した各エレメント情報に対して少なくとも一つの属性情報を対応付け、前記各エレメント情報に対応付けられた前記属性情報に基づいて、一又は複数の項目を有するフォーム情報において前記各エレメント情報の少なくとも一部が前記一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報を生成するための処理を実行するように構成される。 A processing device according to the present disclosure is a processing device including at least one processor, and the at least one processor processes audio information including the content of utterances of one or more speakers based on an input operation by a user. Receive the input, generate text information indicating the content of the one or more speakers' utterances based on the received audio information, and divide the generated text information into one or more element information. At least one attribute information is associated with each element information, and based on the attribute information associated with each element information, at least a part of each element information in form information having one or more items is The device is configured to execute processing for generating output information associated with any one of the one or more items.
また、本開示に係る処理方法は、少なくとも一つのプロセッサを含むコンピュータにおいて、前記少なくとも一つのプロセッサが所定の指示命令を実行することによりなされる方法であって、ユーザによる入力操作に基づいて、一又は複数の話者の発言内容を含む音声情報の入力を受け付ける段階と、受け付けた前記音声情報に基づいて、前記一又は複数の話者の発言内容を示すテキスト情報を生成する段階と、生成した前記テキスト情報を一又は複数のエレメント情報に分割する段階と、分割した各エレメント情報に対して少なくとも一つの属性情報を対応付け、前記各エレメント情報に対応付けられた前記属性情報に基づいて、一又は複数の項目を有するフォーム情報において前記各エレメント情報の少なくとも一部が前記一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報を生成する段階とを含む。 Further, the processing method according to the present disclosure is a method performed in a computer including at least one processor, in which the at least one processor executes a predetermined instruction command, and the processing method is performed by executing a predetermined instruction command based on an input operation by a user. or a step of receiving an input of voice information including contents of utterances of a plurality of speakers; and a step of generating text information indicating contents of utterances of the one or more speakers based on the received voice information; dividing the text information into one or more element information; associating at least one attribute information with each divided element information; Alternatively, in form information having a plurality of items, at least a part of each element information is associated with any one of the one or more items.
本開示に係る処理プログラムは、少なくとも一つのプロセッサを含むコンピュータを、ユーザによる入力操作に基づいて、一又は複数の話者の発言内容を含む音声情報の入力を受け付け、受け付けた前記音声情報に基づいて、前記一又は複数の話者の発言内容を示すテキスト情報を生成し、生成した前記テキスト情報を一又は複数のエレメント情報に分割し、分割した各エレメント情報に対して少なくとも一つの属性情報を対応付け、前記各エレメント情報に対応付けられた前記属性情報に基づいて、一又は複数の項目を有するフォーム情報において前記各エレメント情報の少なくとも一部が前記一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報を生成する、処理を行うように構成されたプロセッサとして機能させる。 A processing program according to the present disclosure causes a computer including at least one processor to accept input of voice information including utterance content of one or more speakers based on an input operation by a user, and based on the received voice information. generating text information indicating the content of the one or more speakers' statements, dividing the generated text information into one or more element information, and assigning at least one attribute information to each of the divided element information. and, based on the attribute information associated with each element information, in form information having one or more items, at least a part of each element information corresponds to one of the one or more items. Act as a processor configured to perform processing that generates output information associated with the item.
本開示によれば、音声認識により得られたテキスト情報を一又は複数のエレメント情報に分割し、エレメント情報それぞれに属性情報を対応付けて出力情報を生成できる。また、本開示によれば、エレメント情報に、さらに、話者情報を対応付けて出力情報を生成できる。 According to the present disclosure, it is possible to divide text information obtained through speech recognition into one or more pieces of element information, associate attribute information with each piece of element information, and generate output information. Further, according to the present disclosure, output information can be generated by further associating element information with speaker information.
なお、上述した効果は説明の便宜のための例示的なものであるにすぎず、限定的なものではない。上述した効果に加えて、又は上述した効果に代えて、本開示中に記載されたいかなる効果や当業者であれば明らかな効果を奏することも可能である。 Note that the effects described above are merely illustrative for convenience of explanation, and are not limiting. In addition to or in place of the effects described above, any effects described in this disclosure or effects obvious to those skilled in the art may be achieved.
以下、本開示の実施形態として、音声情報に対する音声識別処理等により得られた会議の発言内容を示すテキスト情報を処理し、予め決められたフォームに従った議事録を生成する処理を、図面を参照して詳細に説明する。なお、図面において実質的に同じ構成要素、処理及び情報には同じ符号及び名称が付される。また、「情報」と「データ」とは厳密には区別されない。 Hereinafter, as an embodiment of the present disclosure, a process of processing text information indicating the contents of a meeting uttered obtained by voice identification processing etc. on voice information and generating minutes according to a predetermined form will be described with reference to the drawings. This will be explained in detail with reference to the following. Note that substantially the same components, processes, and information in the drawings are given the same reference numerals and names. Furthermore, "information" and "data" are not strictly distinguished.
また、図面において、構成要素及びデータの数及び種類は例示的に示され、適宜、増減されたり変更されたりする。また、図面において、装置の間における通信の順番は例示的に示され、適宜、変更される。また、図面において、発明の本質的な説明に関係しない構成要素は、適宜、省略されることがある。また、図示の都合上、図面において、「情報」及び「モジュール」等、構成要素及び情報の名称の一部が適宜、省略されることがある。また、「エレメント情報12a~12d」等、複数ある用語の区別が必要とされない場合には、符号の添え字が省略されて「エレメント情報12」等と記載されることがある。
Further, in the drawings, the numbers and types of components and data are shown by way of example, and may be increased, decreased, or changed as appropriate. Furthermore, in the drawings, the order of communication between devices is shown as an example, and may be changed as appropriate. Furthermore, in the drawings, components that are not related to the essential description of the invention may be omitted as appropriate. Furthermore, for convenience of illustration, some names of components and information such as "information" and "module" may be omitted as appropriate in the drawings. Furthermore, when it is not necessary to distinguish between multiple terms such as "element information 12a to 12d", the subscript of the code may be omitted and the term may be written as "
1.端末装置100による処理の概要
まず、図1及び図2を参照して、本実施形態に係る会議の音声から議事録を生成する処理の概要を説明する。図1は、音声情報に対する音声認識により得られたテキスト情報を編集して生成されたエレメント情報12、属性情報16及び話者情報18の出力情報14のなかにおける表示の形式を示すフォーム10を例示する図である。図2は、会議等の音声情報を処理して会議の発言の内容を示すテキスト情報、及び会議において発言した話者を識別し、図1に示したフォーム10に従って会議の議事録を生成する処理を実行する端末装置100の構成を例示する図である。
1. Outline of Processing by
なお、フォーム10は、出力情報14において、エレメント情報12、属性情報16及び話者情報18等の一つ又は複数の項目を、ユーザ所望の形式で出力するために定義される。ユーザは、任意のフォーム10を定義して、エレメント情報12等を、端末装置100に、定義したフォーム10に従って出力情報14のなかに表示させることができる。
Note that the
図2に示す端末装置100は、オンライン会議等の音声情報、及びオフラインのマイク119を介して収集された音声情報等、様々な音声情報を処理し、図1に示したフォーム10に従ってディスプレイ(不図示)等に表示できる。ただし、以下、説明の明確化及び具体化のために、端末装置100が、オフラインで行われた会議の音声情報の入力を受ける場合が説明する。また、端末装置100が、音声識別により、会議における発言の内容を示すテキスト情報を生成し、生成したテキスト情報を分割してエレメント情報12を生成する場合が説明される。また、端末装置100が、エレメント情報12を含む変換情報を発言した話者を特定する場合が説明される。また、端末装置100が、エレメント情報12に、エレメント情報12の属性を示す属性情報16、及びエレメント情報12に対応する話者を示す話者情報18を対応付ける場合が説明される。なお、話者認識は、エレメント情報12を含む発言をした話者を識別することである。さらに、端末装置100が、エレメント情報12と、属性情報16と、話者情報18とを対応付け、フォーム10に従って表示する場合が具体例とされる。
The
会議等において、端末装置100によりマイク119等を介して、一又は複数人の会議の出席者等の話者の音声を示す音声情報が録音される。録音された音声情報に対して音声認識処理を行うことにより、音声情報は、一つ又は複数のテキスト情報に変換される。会議の音声から得られたテキスト情報は、複数の文章を含みうる。従って、テキスト情報は、複数の文章に分割されうる。一方、このテキスト情報は、例えば「え~まずAさんが○月×日までにセミナー資料を生成してください」といった文字列を含む。従って、テキスト情報を分割して得られた文章もまた、「ください」といった敬語等、議事録に含まれる必要がない部分を含みうる。このように、議事録に含まれる必要がない部分は、削除されてよい。
In a conference or the like, audio information indicating the voices of one or more speakers such as conference attendees is recorded by the
なお、分割により得られたテキスト情報は、テキスト情報同士の間の区切りを示す句読点「、」及び「。」、カンマ及びピリオド「,」,「.」及びスペース等の区切情報を含まない。一方、複数のテキスト情報を区切るためには、区切情報を、テキスト情報同士の間に挿入する必要があり、また、最初及び最後のテキスト情報に後置する必要がある。なお、日本語のテキスト情報において、テキスト文章を区切る区切情報は、句読点「、」及び「。」等の文章の区切りを示す句読点情報でありうる。このように、テキスト情報から、不要な文末の敬語等が削除され、テキスト情報同士の間等に句読点情報を挿入すると、テキスト情報同士の区切りが明確になるように変換された変換情報が得られる。 Note that the text information obtained by division does not include delimiter information such as punctuation marks "," and ".", commas and periods "," and ".", and spaces, which indicate delimiters between pieces of text information. On the other hand, in order to delimit a plurality of pieces of text information, it is necessary to insert delimiter information between the pieces of text information, and it is also necessary to post the delimiter information after the first and last text information. Note that in Japanese text information, the delimiter information that delimits text sentences may be punctuation mark information that indicates the delimitation of sentences, such as punctuation marks "," and ".". In this way, by removing unnecessary honorific words at the end of sentences from text information and inserting punctuation information between pieces of text information, conversion information can be obtained that has been converted so that the boundaries between pieces of text information are clear. .
変換情報は、それぞれ単語及び単語群から構成され、何らかの意味を有する一つ又は複数のエレメント情報12を含みうる。例えば、変換情報「え~、まずAさんが○月×日までにセミナー資料を生成する。」は、形態素解析処理及び機能素解析処理等により、それぞれ特定の意味を有する複数のエレメント情報12に分割されうる。例えば、この変換情報は、それぞれ「え~」、「まず」、「Aさんが○月×日までに」及び「セミナー資料を生成する」といった単語及び単語群により構成されるエレメント情報12a~12dに分割されうる。
The conversion information is composed of words and word groups, and may include one or
エレメント情報12は変換情報に含まれ、1つの変換情報は、同一の話者により発言されたと推定されうるので、エレメント情報12の話者は、エレメント情報12を含む変換情報に対応する音声情報に対して話者識別の処理を行うことにより特定されうる。言い換えると、変換情報を介してテキスト情報に対して話者識別の処理を行うことができ、この処理により、エレメント情報12の話者が特定され、エレメント情報12にこの話者を示す話者情報18が対応付けられうる。
The
この変換情報に含まれるエレメント情報12aの「え~」(図1において不図示)は感動詞であり、議事録に含められなくてよい。エレメント情報12bの「まず」は、「セミナー資料を生成する」という行動の順番又は期限のうちの前者(順番)を意味するので、議事録に含められる必要がある。エレメント情報12cの「Aさんが○月×日までに」は、エレメント情報12dの「セミナー資料を生成する」という行動の順番又は期限のうちの後者(期限)、及び主体を意味するので、議事録に含められる必要がある。エレメント情報12dの「セミナー資料を生成する」は、行動を意味するので、議事録に含められる必要がある。 "E~" (not shown in FIG. 1) of the element information 12a included in this conversion information is an interjection and does not need to be included in the minutes. "First" in the element information 12b means the former (order) of the action order or deadline of "generating seminar materials", and therefore needs to be included in the minutes. Element information 12c, “Mr. A, by month x date” means the latter (deadline) of the action order or deadline of “generate seminar materials” in element information 12d, and the subject. must be included in the record. "Generate seminar materials" in the element information 12d means an action, and therefore needs to be included in the minutes.
以上説明したように、エレメント情報12は、例えば、会議における話者による発言前の挨拶として「おはよう」(不図示)、及び発言に前置されるエレメント情報12aの「え~」等の日本語文法の用語で感動詞と呼ばれる単語を含みうる。また、エレメント情報12は、感動詞「おはよう」に敬語「ございます」(不図示)を付した「おはようございます」等の単語群を含みうる。これらの感動詞に含まれる単語、及び感動詞に敬語が付された感動詞に対応する単語群は、一般に、会議の議事録に含まれる必要はない。従って、感動詞に含まれる単語、及び感動詞に敬語が付された感動詞に対応する単語群には、属性情報16を対応付ける必要はないので、議事録を生成する場合には無属性とされる。なお、以下、「感動詞に含まれる単語、及び感動詞に敬語が付された感動詞に対応する単語群」等は、「感動詞等に対応する単語及び単語群」等と記載される。
As explained above, the
無属性ではなく、議事録に含められるべきエレメント情報12b~12dは、行動の主体、期限、行動及び結論等、何らかの意味を有する。つまり、エレメント情報12bの「まず」は行動(エレメント情報12dの「セミナー資料を生成する」)の順番を示し、また、エレメント情報12cの「Aさんが○月×日までに」は行動の主体及び期限を示す。従って、これらのエレメント情報12は、会議の議事録に含まれる必要がある。従って、これらのように、行動の順番又は期限を示すエレメント情報12には、例えば、「期限」という属性情報16が対応付けられる。
The element information 12b to 12d that is not attributeless and should be included in the minutes has some meaning, such as the subject of the action, the deadline, the action, and the conclusion. In other words, "first" in the element information 12b indicates the order of the action ("generate seminar materials" in the element information 12d), and "Mr. A by month x date" in the element information 12c indicates the subject of the action. and the deadline. Therefore, these
エレメント情報12dの「セミナー資料を生成する」は、会議において行われることが決められた行動を示すので、会議の議事録に含まれる必要がある。従って、このように、行うことが決められた行動には、「行うことのリスト」との意味の「To-Doリスト(To-Do List)」の一部から「To-Do」という属性情報16が対応付けられる。なお、行うことが決められた行動は、一般に「タスク」等と呼ばれることがある。また、会議の結論を示すエレメント情報12dには、「結論」という属性情報16が対応付けられる。
The element information 12d "generate seminar materials" indicates an action that has been decided to be performed at the meeting, and therefore needs to be included in the minutes of the meeting. Therefore, for an action that has been decided to be performed, the attribute information "To-Do" is included as part of the "To-Do List" which means "list of things to do". 16 are associated. Note that an action that has been decided to be performed is generally called a "task" or the like. Further, attribute
さらに、各エレメント情報12が、会議の出席者のいずれの話者の発言に含まれていたかは、上述したように、当該エレメント情報12を含む変換情報に対応する音声情報に対して話者識別の処理を行うことにより特定されうる。例えば、会議の出席者がm人(m≧2)である場合、例えば、会議の出席者の人数mを予め音声認識装置に設定しておくことにより、各エレメント情報12を含むテキスト情報の話者を認識するための話者認識処理が容易となる。このように、図1に示すように、話者認識により、エレメント情報12それぞれと、当該エレメント情報12を含む文章を発言した話者(図1においては話者A~C;m=3)とを対応付けることができる。
Furthermore, as described above, whether each
本実施形態においては、音声情報からテキスト情報が生成され、さらに、テキスト情報から変換情報を経てエレメント情報12が生成される。生成されたエレメント情報12それぞれには、「無属性」、「期限」、「To-Do」及び「結論」のうちの一つ以上の属性情報16が対応付けられる。生成されたエレメント情報12が、会議の出席者等の話者のいずれの発言に含まれていたかは、上述したように特定されうる。特定された話者を示す話者情報18は、エレメント情報12に対応付けられる。
In this embodiment, text information is generated from audio information, and
ユーザは、エレメント情報12自体を適宜、修正及び編集できる。さらに、ユーザは、エレメント情報12に誤って対応付けられた属性情報16及び話者情報18を修正したり、属性情報16及び話者情報18自体を編集したりできる。これらの修正及び編集により、エレメント情報12と、属性情報16及び話者情報18とが正しく対応付けられる。さらに、点線の矢印により示すように、ユーザの手作業により属性情報16に基づいてエレメント情報12が並べ替えられたり、自動的に属性情報16に基づいてエレメント情報12が並べ替えられたりしうる。これにより、ユーザの作業による会議の議事録の生成が容易になったり、議事録が自動的に生成されたりしうる。以上説明された会議の議事録を示す情報が、図1に示す出力情報14とされ、フォーム10に従ってディスプレイを介してユーザに表示される。
The user can modify and edit the
さらに、To-Doの属性が対応付けられたエレメント情報12を含む発言を行った出席者(話者)を示す話者情報18は、例えば、当該エレメント情報12が示す行動の指示者と推定されて出力情報に含まれうる。なお、この発言を行った出席者がこの発言に含まれ、To-Doの属性が対応付けられたエレメント情報12が示す行動の指示者でないことがある。このような場合には、適宜、ユーザによる話者情報18の修正及び編集により、To-Doの属性が対応付けられたエレメント情報12が示す行動の指示者は、正しい指示者、例えば当該話者以外の他の話者に訂正されうる。なお、「ユーザ」は、会議の議事録を生成する人を意味し、会議の参加者等の話者に含まれていても、含まれていなくともよい。
Furthermore,
2.端末装置100の構成
以下、図2を参照して、図1を参照して説明した本実施形態に係る会議の音声から議事録を生成する処理を実行する端末装置100の構成を説明する。端末装置100は、スマートフォンといった携帯端末装置、タブレット型コンピュータといった端末装置、ノート型パーソナルコンピュータ(PC)、デスクトップ型PC、サーバ装置及び大型コンピュータといった汎用の情報処理装置でありうる。
2. Configuration of
なお、端末装置100は、図2に示す構成要素の全てを備える必要はなく、端末装置100の一部の構成要素は省略されうる。また、端末装置100には、図2に示す以外の他の構成要素が加えられうる。端末装置100は、図2に示す構成要素により、図1を参照して説明した本実施形態に係る会議の音声から議事録を生成する処理を行う処理装置として機能する。
Note that the
ただし、上述した会議の音声から議事録を生成する処理は、必ずしも端末装置100において実行される必要はなく、端末装置100と、インターネット等の通信ネットワーク(不図示)を介して接続されたサーバ装置(不図示)を処理装置として行われてもよい。この場合には、例えば、端末装置100は、当該サーバ装置に通信ネットワークを介して音声情報を送信し、当該サーバ装置が、図1を参照して説明した音声情報処理及び話者認識処理を実行し、出力情報14を生成する。サーバ装置は、この出力情報14を、通信ネットワークを介して端末装置100に送信する。
However, the process of generating minutes from the audio of the meeting described above does not necessarily need to be executed in the
図2に示すように、端末装置100は、バスを介して相互に接続された出力インターフェイス(出力IF)111、プロセッサ112、メモリ113、通信インターフェイス(通信IF)114、入力インターフェイス(入力IF)116及びマイク119を含む。
As shown in FIG. 2, the
メモリ113は、RAM、ROM、不揮発性メモリ(NVM)、HDD(不図示)及びSSD(不図示)等を含む。通信インターフェイス114は、通信処理回路115及びアンテナを含む。入力インターフェイス116は、マウス117及びハードキー118を含む。そして、端末装置100のこれらの構成要素は、制御ライン(不図示)及びバスを介して電気的に接続され、データ及び情報を相互に送受信する。
The
出力インターフェイス111は、スピーカ及びディスプレイ(不図示)等の出力デバイスを端末装置100に接続する。なお、これらの出力デバイスは、端末装置100の外部に配置され、出力インターフェイス111を介して接続されても、端末装置100と一体に構成されて出力インターフェイス111に接続されてもよい。
The
出力インターフェイス111に接続されるディスプレイは、プロセッサ112の指示に応じて、メモリ113に記憶された画像情報を読み出して、各種表示を行う表示部として機能する。ディスプレイは、実施形態に係る音声情報から得られたテキスト情報処理の実行のための情報等を表示する。なお、ディスプレイは、例えば液晶ディスプレイや有機ELディスプレイから構成される。出力インターフェイス111に接続されるスピーカは、端末装置100が受信した音声データから得られた音声信号を出力するオーディオ出力部として機能する。
A display connected to the
プロセッサ112は、1以上のCPU(マイクロプロセッサ)又は1以上のCPUと画像処理に特化した1以上のGPU等との組み合わせと、その周辺回路とから構成される。プロセッサ112は、メモリ113に記憶された各種プログラムに基づいて、接続された他の構成要素を制御する制御部として機能する。
The
具体的には、プロセッサ112は、実施形態に係る処理を実行するための所定の指示命令を含むアプリケーションプログラム、及びOSの処理のための所定の指示命令を含むプログラムをメモリ113から読み出して実行する。また、OSは、プロセッサ112によるアプリケーションプログラムの実行のための機能を提供する。
Specifically, the
特に、プロセッサ112は、ユーザによる入力操作に基づいて、一又は複数人の話者の発言の内容を含む音声情報の入力を受け付ける所定の指示命令を含むアプリケーションプログラムをメモリ113から読み出して実行する。また、プロセッサ112は、受け付けた音声情報に基づいて、一又は複数の話者の発言の内容を示すテキスト情報を生成し、生成したテキスト情報を一又は複数のエレメント情報12情報に分割する所定の指示命令を含むアプリケーションプログラムをメモリ113から読み出して実行する。
In particular, the
また、プロセッサ112は、分割した各エレメント情報12に対して少なくとも一つの属性情報16を対応付け、各エレメント情報12に対応付けられた属性情報16に基づいて、一又は複数の項目を有するフォーム情報において各エレメント情報12の少なくとも一部が一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報14を生成する所定の指示命令を含むアプリケーションプログラムをメモリ113から読み出して実行する。
Further, the
メモリ113は、記憶部として機能する。さらに、メモリ113には、端末装置100に対して着脱可能な記憶媒体及びデータベース(不図示)等が接続されうる。メモリ113において、ROMは、OS等の処理のための所定の指示命令を含むプログラムを記憶する。
RAMは、ROMに記憶されたアプリケーションプログラム及びOSのプログラムがプロセッサ112により処理されている間に、処理に必要とされるデータの書き込み、及び読み出しが行われるメモリである。不揮発性メモリは、書き込まれたデータを電源の供給なしに保持するメモリである。不揮発性メモリには、プロセッサ112により、当該プログラムの実行によって得られたデータが書き込まれたり、書き込まれたデータが読み出されたりする。
The RAM is a memory into which data necessary for processing is written and read while the
特に、メモリ113は、ユーザによる入力操作に基づいて、一又は複数の話者の発言の内容を含む音声情報の入力を受け付ける所定の指示命令を含むアプリケーションプログラムを記憶する。また、メモリ113は、受け付けた音声情報に基づいて、一又は複数の話者の発言の内容を示すテキスト情報を生成し、生成したテキスト情報を一又は複数のエレメント情報12情報に分割する所定の指示命令を含むアプリケーションプログラムを記憶する。また、メモリ113は、分割した各エレメント情報12に対して少なくとも一つの属性情報16を対応付け、各エレメント情報12に対応付けられた属性情報16に基づいて、一又は複数の項目を有するフォーム情報において各エレメント情報12の少なくとも一部が一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報14を生成する所定の指示命令を含むアプリケーションプログラムを記憶する。
In particular, the
通信インターフェイス114は、通信処理回路115及びアンテナを介して通信ネットワーク(不図示)と端末装置100とを接続し、通信ネットワークに接続された他の装置(不図示)との間で、情報及びデータを送受信する通信部として機能する。通信処理回路115は、広帯域又は狭帯域の無線通信方式によって、通信ネットワークと端末装置100の間で、アンテナを介して情報を通信するための通信処理を行う。なお、広帯域の無線通信方式は、例えばLTE方式であり、狭帯域の無線通信方式は、例えばIEEE802.11及びBluetooth(登録商標)等である。また、通信処理回路115は、無線通信の代わりに、又は無線通信に加えて、有線通信のための処理を行ってもよい。
The
入力インターフェイス116は、マウス117及びハードキー118等の入力デバイスと有線通信又は無線通信によって接続され、ユーザの操作を受け入れて各種情報の入力を受ける入力部として機能する。入力インターフェイス116の例としては、シリアルポート、パラレルポート、及びUSB等が挙げられる。また、無線通信(例えば、Bluetooth(登録商標))によりマウス117を接続するような場合には、無線通信機能を有する構成要素に、入力インターフェイス116及び通信インターフェイス114の機能を兼用させることも可能である。
The
マウス117は、それ自体の移動を検出するセンサ、左ボタン及び右ボタン等を含む。マウス117は、ディスプレイに表示されたマウスポインタを移動させるユーザの操作を検出する。また、マウス117は、ディスプレイに表示されたアイコン等に対する左右のボタン(不図示)を用いたユーザのクリック操作を検出する。
The
例えば、ユーザは、マウス117を用いてOSにより提供される機能を利用し、ディスプレイに表示されたエレメント情報12を、左ボタンへの操作(クリック)により選択できる。また、ユーザは、選択したエレメント情報12を、左ボタンを押下したままマウス117を移動させることによりディスプレイの画面において移動させ、左ボタンの押下を止めることにより、所望の位置に動かせる。マウス117を用いたユーザによるこのような操作は、一般に、ドラッグ・アンド・ドロップとも呼ばれる。マウス117は、上述したようなユーザの操作を受け入れ、入力インターフェイス116を介してプロセッサ112に出力する。なお、マウス117は、端末装置100がノートPC等の場合には、タッチバッド等により代替されうる。
For example, the user can use the functions provided by the OS using the
ハードキー118は、機械的スイッチを含み、ユーザによる端末装置100への操作を受け入れて、入力インターフェイス116を介してプロセッサ112に出力する。なお、端末装置100とハードキー118とは一体に構成されても、別々に構成されてもよい。端末装置100とハードキー118とが別々に構成される場合には、端末装置100とマウス117及びハードキー118の間は無線通信又は有線通信によって接続される。
マイク119は、会議等における一又は複数の話者の発言等の音声を受けてアナログ形式の音声信号に変換し、さらに、この音声信号をディジタル形式の音声情報に変換し、プロセッサ112に出力する。ただし、端末装置100は、音声情報を、マイク119を用いて得る必要はない。例えば、端末装置100が、オンラインミーティングに参加しているユーザにより用いられている場合には、端末装置100は、オンラインミーティングにおいて他の端末装置との間で送受信されている音声情報を処理できる。
The
3.端末装置100において処理に用いられる情報
以下、図3A~図3Cを参照して、図2に示した端末装置100において音声情報の処理のために用いられる情報を説明する。図3Aは、フォーム情報テーブルを示す図である。端末装置100は、図3Aに示すフォーム情報テーブルを、ユーザ所望の出力形式に従って出力情報14を生成するために用いる。
3. Information used for processing in the
フォーム情報テーブルは、フォーム識別情報(フォームID)A、ユーザ識別情報(ユーザID)B、フォーム情報C及び話者数情報Dを対応付けて含む。なお、ユーザ識別情報Bは、端末装置100を用いて会議の議事録を生成するユーザを一意に識別する識別情報である。なお、上述したように、このユーザは、会議の音声情報から議事録を生成する作業を行う人であって、当該会議において発言する話者であっても、話者でなくてもよい。
The form information table includes form identification information (form ID) A, user identification information (user ID) B, form information C, and number of speakers information D in association with each other. Note that the user identification information B is identification information that uniquely identifies a user who uses the
フォーム情報Cは、ユーザにより生成され、図1に示したようにエレメント情報12、属性情報16及び話者情報18の出力情報14のなかにおける出力及び表示のフォーム10を示す。話者数情報Dは、議事録の生成の対象となる会議の出席者の数、つまり、エレメント情報12を含む発言を行いえた人の数を示し、会議の開始前に、ユーザにより予め設定される。フォーム識別情報Aは、対応付けられたユーザ識別情報B、フォーム情報C及び話者数情報Dを一意に識別する。
Form information C is generated by a user and shows a
図3Bは、音声情報テーブルを示す図である。端末装置100は、音声情報テーブルを、音声情報から出力情報14を生成するために用いる。音声情報テーブルは、音声識別情報(音声ID)E、ユーザ識別情報B、音声情報G、テキスト情報H、変換情報I、エレメント情報J(エレメント情報12)及び出力情報K(出力情報14)を対応付けて含む。なお、ユーザ識別情報Bは、図3Aを参照して説明したフォーム情報テーブルに含まれるユーザ識別情報Bと同じであり、フォーム情報テーブルの各行と、音声情報テーブルの各行とは、ユーザ識別情報Bにより対応付けられうる。
FIG. 3B is a diagram showing the audio information table. The
音声識別情報Eは、音声識別情報Eに対応付けられた音声情報G、テキスト情報H、変換情報I、エレメント情報J及び出力情報Kを一意に識別する。音声情報Gは、マイク119等から入力され、端末装置100による処理の対象となる音声情報である。テキスト情報Hは、対応付けられた音声情報Gに対して音声識別を行うことにより生成されたテキスト情報である。変換情報Iは、対応付けられたテキスト情報Hを変換して生成された変換情報である。エレメント情報Jは、対応付けられた変換情報Iを分割して生成された一つ又は複数のエレメント情報12である。出力情報Kは、対応するエレメント情報Jから、図3Aに示したユーザ識別情報Bに対応するフォーム情報Cに従って生成された出力情報14である。
The audio identification information E uniquely identifies the audio information G, text information H, conversion information I, element information J, and output information K associated with the audio identification information E. The audio information G is audio information that is input from the
図3Cは、エレメント情報テーブルを示す図である。図3Cに示すように、エレメント情報テーブルは、エレメント情報J(エレメント情報12)、属性情報16を示すフラグ情報M、及び話者情報18を示す話者情報Nを対応付けて含む。エレメント情報Jは、図3Bを参照して説明した音声情報テーブルのエレメント情報Jと同じであり、音声情報テーブルの各行と、エレメント情報テーブルの各行とは、エレメント情報Jにより対応付けられる。
FIG. 3C is a diagram showing an element information table. As shown in FIG. 3C, the element information table includes element information J (element information 12), flag information M indicating
フラグ情報Mは、テキスト情報Hに含まれる一又は複数の変換情報から生成された一つ又は複数のエレメント情報J(エレメント情報12)それぞれの属性情報16を示す情報である。図1を参照して説明したように、フラグ情報Mは、エレメント情報J(エレメント情報12)それぞれの属性情報16の「無属性」、「期限」、「To-Do」及び「結論」のうちの一つ以上を示す。また、話者情報Nは、図1において話者A~Cと例示したように、エレメント情報Jを含む変換情報を発言した会議の参加者を示す。
Flag information M is information indicating
4.端末装置100による音声情報の処理により得られる情報
以下、図4A~図4Dを参照して、端末装置100による音声情報の処理により得られる情報を、具体例を挙げて説明する。図4Aは、図3Bに示した音声情報テーブルに含まれるテキスト情報Hを例示する図である。
4. Information Obtained by Processing Audio Information by
端末装置100は、図3Bに示した音声情報Gに対して音声認識処理を行い、図4Aに示すように、「え~まずAさんが○月×日までにセミナー資料を生成してくださいBさんは△月□日までにチェックをしてくださいそれではAさんとBさんが資料を作るということで本日は終了します」とのテキスト情報Hを生成する。なお、このテキスト情報Hは、音声情報Gに対して単に音声識別処理を行って生成されたので、テキストのみを含み、これ以外の句読点情報等の区切情報を含まない。
The
図4Bは、図4Aに示したテキスト情報から生成された音声情報テーブル(図3B)に含まれる変換情報を例示する図である。端末装置100は、複数の文章を含むテキスト情報を、文章ごとに分割し、分割したテキスト情報それぞれの末尾に付された敬語等、議事録に含めるべきでない部分を削除する。さらに、端末装置100は、文章の末尾に句読点情報等の区切情報を付加することにより、図4Bに示す変換情報を生成する。生成された変換情報の内容は、例えば、「え~、まずAさんが○月×日までに、セミナー資料を生成する。 Bさんは△月□日までにチェックをする。 それでは、AさんとBさんが資料を作るということで本日は終了する。」となる。
FIG. 4B is a diagram illustrating conversion information included in the audio information table (FIG. 3B) generated from the text information shown in FIG. 4A. The
図4Cは、図4Bに示した変換情報から生成された音声情報テーブル(図3B)に含まれるエレメント情報12(エレメント情報J)を例示する図である。端末装置100は、図4Bに示したように分割された変換情報に対して、形態素解析処理、機能素解析処理、特徴語解析処理及び構造化処理を行うことにより、図4Cに示すエレメント情報12を生成する。エレメント情報12それぞれは、図1を参照して上述したように、「無属性」、「期限」、「To-Do」及び「結論」の少なくとも一つの属性が対応付けられる単語又は単語群である。なお、この説明においては、エレメント情報12それぞれに、一つずつ属性を示すフラグが対応付けられる場合を具体例とする。
FIG. 4C is a diagram illustrating element information 12 (element information J) included in the audio information table (FIG. 3B) generated from the conversion information shown in FIG. 4B. The
図4Dは、チェックボックスと、図4Cに示したエレメント情報12と、属性を示すフラグF1~F4と、話者A~Cを示す話者情報18を対応付けたUI画像を例示する図である。図4Dに示すように、このUI画像は、左側から、チェックボックスと、エレメント情報12と、フラグF1~F4(属性情報16)と、話者情報18(話者A~C)とを含む。なお、話者情報18の数は、A~Cの3つに限定されず、会議の出席者の人数に応じて増減する。端末装置100は、図4Cに示したエレメント情報12それぞれに、最も相応しいと推定される属性を示すフラグF1~F4のいずれかを対応付けてディスプレイに表示する。
FIG. 4D is a diagram illustrating a UI image in which check boxes,
なお、図4Dには、端末装置100が、エレメント情報12の「え~」を、感動詞等に対応する単語と判断し、このエレメント情報12に、無属性を示すフラグF1と、話者Bを示す話者情報18とを対応付けた場合が例示されている。また、図4Dには、端末装置100が、エレメント情報12の「まず」に、期限の属性を示すフラグF2と、話者Bを示す話者情報18とを対応付けた場合が例示されている。また、図4Dには、端末装置100が、端末装置100が、エレメント情報12の「Aさんが○月×日までに」に、期限の属性を示すフラグF2と、話者Bを示す話者情報18とを対応付けた場合が例示されている。また、図4Dには、端末装置100が、エレメント情報12の「セミナー資料を生成する」に、To-Doの属性を示すフラグF3と、話者Bを示す話者情報18とを対応付けた場合が例示されている。
In addition, in FIG. 4D, the
また、図4Dには、端末装置100が、エレメント情報12の「Bさんは△月□日までに」に、期限の属性を示すフラグF2と、話者Aを示す話者情報18とを対応付けた場合が例示されている。また、図4Dには、端末装置100が、エレメント情報12の「チェックをする」にTo-Doの属性を示すフラグF3と、話者Aを示す話者情報18とを対応付けた場合が例示されている。
Further, in FIG. 4D, the
また、図4Dには、端末装置100が、エレメント情報12の「それでは」を感動詞等に対応する単語と判断し、無属性を示すフラグF1と、話者Cを示す話者情報18とを対応付ける場合が例示されている。また、図4Dには、端末装置100が、エレメント情報12の「AさんとBさんが資料を作る」に、結論を示すフラグF4と、話者Cを示す話者情報18とを対応付けた場合が例示されている。また、図4Dには、端末装置100が「ということで本日は終了する」を、感動詞等に対応する単語及び単語群であると判断し、無属性を示すフラグF1と話者Cを示す話者情報18とを対応付けた場合が例示されている。
Further, in FIG. 4D, the
上述したように、端末装置100は、図4Dに示したUI画像に、チェックボックスと、エレメント情報12と、エレメント情報12に対応付けることを推奨(リコメンド)するフラグ(属性情報16)及び話者情報18とを対応付けて表示する。ユーザは、最も左に位置するチェックボックスにチェック(レ印)を入れることにより、推奨されたエレメント情報12とフラグ(属性情報16)と話者情報18との組み合わせを承諾することができる。あるいは、ユーザが、図4Dに示したUI画像に対して、マウス117及びハードキー118等を用いた編集操作を行うことにより、エレメント情報12、フラグ及び話者情報18を適宜、編集できる。
As described above, the
つまり、ユーザは、UI画像に対して操作を行うことにより、エレメント情報12に間違い等がある場合には、この間違い等を修正できる。また、ユーザは、同様に、エレメント情報12と対応付けられたフラグ(属性情報16)に間違い等がある場合には、エレメント情報12に対応付けられたフラグを修正できる。また、ユーザは、同様に、エレメント情報12に対応づけられた話者情報18に間違い等がある場合には、エレメント情報12に対応付けられた話者情報18を修正できる。
In other words, if there is a mistake in the
なお、1つのエレメント情報12が2つのエレメント情報12に分割された場合には、端末装置100は、図4Dにおいてこのエレメント情報12が含まれていた1つの行を、分割後のエレメント情報12をそれぞれ含む2つの行に分割する。さらに、端末装置100は、ユーザの入力操作に応じて、分割後の2つのエレメント情報12それぞれに対してフラグと話者情報18とを対応付ける。あるいは、端末装置100は、自動的に、分割後の2つのエレメント情報12それぞれに対してフラグと話者情報18とを対応付ける。
Note that when one piece of
あるいは、図4Dにおいて隣り合う2つのエレメント情報12が1つのエレメント情報12にマージ(併合)されることがある。この場合には、端末装置100は、図4Dにおいてこれらのエレメント情報12が含まれていた2つの行を、分割後の1つのエレメント情報12を含む1つの行とする。さらに、端末装置100は、ユーザの入力操作に応じて、マージ後のエレメント情報12に対してフラグと話者情報18とを対応付ける。あるいは、端末装置100は、自動的に、マージ後のエレメント情報12に対してフラグと話者情報18とを対応付ける。
Alternatively, two adjacent pieces of
5.端末装置100の処理
以下、端末装置100の処理を説明する。まず、図5A及び図5Bを参照して、ユーザが端末装置100に、出力情報14の出力形式を示すフォーム情報Cを登録する処理を説明する。図5Aは、ユーザによる端末装置100に対して、フォーム情報テーブル(図3A)に含まれるフォーム情報のうちの出力情報14のフォーム情報Cを示す情報を登録する処理を示すフローチャートである。
5. Processing of the
図5Aに示すS100において、端末装置100(図2)のプロセッサ112は、入力インターフェイス116を介してユーザの入力操作を受け入れ、当該ユーザのユーザ識別情報を受信したか否かを判断する。プロセッサ112は、ユーザ識別情報を受信した場合(Y)にはS102の処理に進み、受信しなかった場合(N)にはS100の処理にとどまる。
In S100 shown in FIG. 5A, the
S102において、端末装置100のプロセッサ112は、S100における入力操作を行ったユーザを認証するための処理を行う。
In S102, the
S104において、プロセッサ112は、S102の処理により、S100における入力操作を行ったユーザが認証されたか否かを判断する。プロセッサ112は、ユーザが認証された場合(Y)にはS106の処理に進み、認証されなかった場合(N)には処理を終了する。
In S104, the
S106において、プロセッサ112は、入力インターフェイス116を介してユーザの入力操作に応じて、当該ユーザによるフォーム情報Cを入力する入力操作、又は複数のフォーム情報Cのいずれかを選択する選択操作を受け入れる。プロセッサ112は、入力されたフォーム情報C、又は選択されたフォーム情報Cを、入力インターフェイス116を介して受け入れる。なお、出力情報14の出力形式は、通信インターフェイス114を介して、通信ネットワークに接続された他の装置から受信されることもある。
In S106, the
S108において、端末装置100のプロセッサ112は、S106の処理において受信した出力情報14のフォーム情報Cにより、図3Aに示したフォーム情報テーブルに含まれるフォーム情報Cを更新し、登録する。さらに、プロセッサ112は、更新されたフォーム情報テーブルをメモリ113に記憶する。図5Bに示すように、フォーム情報Cは、図1に示した出力情報14を、出力インターフェイス111を介してディスプレイに表示するときに用いられる出力情報画面に含まれる属性情報16の項目及びレイアウト等を定義する。
In S108, the
図5Bは、フォーム情報により示される出力情報14のフォーム情報Cが示すフォーム10を例示する図である。図5Bに示すように、出力情報14のフォーム10は、結論の項目と、期限の項目と、To-Doの項目とを表示する部分を含む。フォーム情報Cにより示されるフォーム10に従って、出力情報14の画面において、結論の属性を示すフラグF4に対応付けられたエレメント情報12が上側半分に表示される。また、このフォーム10に従って、下側半分の左側に期限の属性を示すフラグF2に対応付けられたエレメント情報12が表示される。
FIG. 5B is a diagram illustrating the
また、このフォーム10に従って、下側半分の右側にはTo-Doの属性を示すフラグF3に対応付けられたエレメント情報12と、このエレメント情報12に対応付けられた話者情報18(図5Bにおいて話者A,B)が表示される。なお、上述したように、エレメント情報12に対応付けられた話者情報18が示す話者は、To-Doの属性が付されたエレメント情報12の指示者と推定される。この推定が間違っている場合には、ユーザは、図4Dを参照して上述したUI画像を用いて、このような間違いを修正できる。
In addition, according to this
次に、図6A~図6C等を参照して、端末装置100によるユーザ識別情報の入力から出力情報14の生成までの処理を説明する。図6Aは、端末装置100による音声情報処理を示すフローチャートである。図6Aに示すように、S120において、端末装置100(図2)のプロセッサ112は、入力インターフェイス116を介して、一又は複数のユーザのいずれかによるユーザ識別情報を受け入れる。プロセッサ112は、受け入れたユーザ識別情報Bによりフォーム情報テーブル及び音声情報テーブル(図3A及び図3B)を更新して、ユーザ識別情報Bを登録し、メモリ113に記憶する。
Next, with reference to FIGS. 6A to 6C and the like, processing from input of user identification information to generation of
S122において、プロセッサ112は、マイク119から音声情報を受け入れる。あるいは、プロセッサ112は、通信インターフェイス114を介して、通信ネットワークに接続された他の装置から音声情報を受信する。プロセッサ112は、これらの音声情報により音声情報テーブルを更新し、音声情報を登録し、メモリ113に記憶する。
At S122,
S124において、プロセッサ112は、メモリ113に記憶した音声情報を読み出し、読み出した音声情報に対して音声認識処理を行い、図4Aに例示したテキスト情報を生成する。プロセッサ112は、生成したテキスト情報により音声情報テーブルを更新し、テキスト情報を登録し、メモリ113に記憶する。
In S124, the
S126において、プロセッサ112は、メモリ113からテキスト情報を読み出して、読み出したテキスト情報に対して、形態素解析処理を行う。プロセッサ112は、この形態素解析処理により、入力されたテキスト情報の範囲を、形態素、及び複数の形態素を含む形態素群に分割する。
In S126, the
なお、形態素は、言語学の用語であって、意味をもつ表現要素の最小単位であり、ある言語において、それ以上分解したら意味をなさなくなるところまで分割して抽出された音素のまとまりである。なお、英語等のように、単語が一つずつ分かち書きされる言語においては、例外はあるが、ほぼ、1つの単語が一つの形態素である。つまり、複数の形態素を含むテキスト情報は、ワードプロセッサを利用してユーザにより生成されるテキスト情報、及びWebサーバにより提供されるテキスト情報など、ごく一般的で普通のテキスト情報である。 A morpheme is a term in linguistics, and is the smallest unit of meaningful expressive elements, and is a group of phonemes extracted in a language by dividing them to the point where they no longer make sense if broken down any further. Note that in languages such as English where each word is written separately, one word is almost always one morpheme, although there are exceptions. That is, the text information including a plurality of morphemes is very general text information, such as text information generated by a user using a word processor and text information provided by a web server.
なお、端末装置100により、日本語のテキスト情報から議事録が生成される場合が具体例とされている。例えば、テキスト情報が、「テキスト情報に」という文字列を含んでいる場合には、このテキスト情報に含まれる形態素は、「テキスト」、「情報」及び「に」である。なお、この実施形態においては、複数の形態素「テキスト」及び「情報」を含む「テキスト情報」、及び複数の形態素「情報」及び「に」を含む「情報に」等、複数の形態素を含む音素のまとまりは「形態素群」と記載される。
Note that a specific example is a case where the
S128において、プロセッサ112は、S126の処理により得られた形態素及び形態素群それぞれに対して関係性解析処理のための機能素解析処理を行い、形態素及び形態素群それぞれの機能を特定する。
In S128, the
S130において、プロセッサ112は、S126の処理により得られた形態素及び形態素群それぞれに対して、特徴語辞書を用いて関係性解析処理のための特徴語解析処理を行う。
In S130, the
S132において、プロセッサ112は、S128及びS130における機能素解析処理の結果及び特徴語解析処理の結果に基づいて、関係性解析処理を行い、形態素同士の間、形態素と形態素群との間、及び形態素群同士の間の関係性を特定する。なお、「形態素同士の間」、「形態素と形態素群との間」及び「形態素同士の間」は、「形態素及び形態素群の間」と総称される。
In S132, the
S134において、プロセッサ112は、関係性解析処理の結果に基づいて、図4Bに示した変換情報を生成する。具体的には、プロセッサ112は、関係性解析処理の結果に基づいて、変換情報の末尾から敬語等を削除し、変換情報の間に句読点情報等の区切情報を挿入して、変換情報を生成する。プロセッサ112は、生成した変換情報により音声情報テーブルを更新し、変換情報を登録し、メモリ113に記憶する。
In S134, the
S136において、プロセッサ112は、S134の処理において生成された変換情報に対する処理を行い、図4Cに示したように、それぞれ特定の意味を有する複数のエレメント情報12に分割する。プロセッサ112は、このような分割により生成したエレメント情報12により音声情報テーブルを更新し、エレメント情報12を登録し、メモリ113に記憶する。
In S136, the
S138において、プロセッサ112は、S136の処理により生成されたエレメント情報12を含む変換情報に対応する音声情報に対して話者識別処理を行う。この処理の結果として、プロセッサ112は、エレメント情報12を含む変換情報を発言した話者を特定する。また、プロセッサ112は、特定した話者を示す話者情報18を生成する。また、プロセッサ112は、生成した話者情報18により、図3Cに示したエレメント情報テーブルに含まれる話者情報Nを更新する。さらに、プロセッサ112は、当該話者情報Nに対応するエレメント情報J及びフラグ情報M12を対応付けてメモリ113に記憶する。
In S138, the
S140において、プロセッサ112は、関係性解析処理の結果に基づいて処理を行う。この処理により、プロセッサ112は、エレメント情報12に、フラグF1~F4(属性情報16)の一つ以上を対応付ける。さらに、プロセッサ112は、対応付けられたエレメント情報12及びフラグF1~F4の一つ以上に、さらに、チェックボックス、及びS138の処理により生成された話者情報18を対応付ける。プロセッサ112は、エレメント情報12に対応付けたチェックボックス、エレメント情報12、フラグF1~F4及び話者情報18を、図4Dに示したUI画像に表示する。
In S140, the
プロセッサ112は、このUI画像の表示により、エレメント情報12それぞれに対応付ける属性情報16及び話者情報18を、ユーザに推奨(リコメンド)する。なお、上述したように、フラグF1は無属性を示し、フラグF2は期限の属性を示し、フラグF3はTo-Doの属性を示し、フラグF4は結論の属性を示す。ユーザは、図4Dを参照して上述したように、S138の処理において対応付けられたエレメント情報12、フラグ及び話者情報18に対して適宜、編集及び修正の操作を行う。プロセッサ112は、ユーザによる編集及び修正の操作を受け入れ、エレメント情報12、属性情報16及び話者情報18の内容及びこれらの情報の対応付け等に反映させる。ユーザが、UI画像において確定と記載されたボタンに対する操作を行うと、エレメント情報12、属性情報16及び話者情報18の対応付け等の編集及び修正が終了する。なお、ユーザが、図4Dに示したUI画像に対して、議事録に必要な情報、例えば、会議の議題及び出席者等の情報をさらに追加する操作を行ってもよい。プロセッサ112は、このような操作を、入力インターフェイス116を介して受け入れ、出力情報14のなかに追加し、出力インターフェイス111を介して、フォーム10に従ってディスプレイに表示する。
By displaying this UI image, the
図6Bは、属性を示すフラグと対応付けられたエレメント情報12のリストを例示する図である。S142において、プロセッサ112は、S140の処理により編集及び修正されたエレメント情報12と、無属性を除く属性情報16の一つ以上と、話者情報18とを対応付ける。さらに、プロセッサ112は、このように対応付けた情報を、図6Bに示すリスト形式で、入力インターフェイス116を介してディスプレイに表示する。
FIG. 6B is a diagram illustrating a list of
S142において、プロセッサ112は、図6Bに示すように、S140の処理において編集及び修正されたエレメント情報12、属性情報16及び話者情報18を対応付けて含むリストを生成する。さらに、プロセッサ112は、生成したリストを、出力インターフェイス111を介してディスプレイに表示する。ユーザは、表示されたリストに対する操作を行いうる。つまり、ユーザは、マウス117等によりチェックボックス20にチェックを入れる操作を行うことにより、プロセッサ112によりエレメント情報12それぞれに対応付けられた属性情報16を承認する。あるいは、ユーザは、マウス117等により、属性情報16に対する操作を行い、所望の属性情報16に変更する操作を行う。あるいは、ユーザは、話者情報18に対する操作を行い、所望の話者情報18に変更する操作を行う。
In S142, the
S142の処理におけるユーザによるこれらの操作は、エレメント情報12と、期限、To-Do及び結論の属性の一つ以上の属性情報16と、話者情報18との対応付けを変更したり修正したりする編集操作である。プロセッサ112は、ユーザによる編集操作を、入力インターフェイス116を介して受け入れ、エレメント情報12と、期限、To-Do及び結論の属性の一つ以上との対応付けを、ユーザによる編集操作に応じて変更する。ただし、S140の処理において、既に、エレメント情報12と、エレメント情報12に対応付けられた属性情報16及び話者情報18の編集は行われているので、S142における編集操作は省略されうる。
These operations by the user in the process of S142 include changing or modifying the association between the
S144において、ユーザが、図6Bに示したリストを確認し、このリストに含まれ、確定と記載されたボタンに対する操作を行うと、プロセッサ112は、この操作を、入力インターフェイス116を介して受け入れる。プロセッサ112は、この操作に応じて、S140の処理において編集されたエレメント情報12と属性及び話者との対応付けを確定させる。
In S144, when the user checks the list shown in FIG. 6B and performs an operation on a button included in the list and marked as OK, the
図6Cは、エレメント情報12等を、出力情報14のフォーム10に含まれ、属性情報16に対応付けられたボックスに移動させるために用いられるUI画像を例示する図である。S146において、端末装置100のプロセッサ112は、チェックボックス20以外の属性情報16、話者情報18及びエレメント情報12を、図6Bに示したように表示する。さらに、プロセッサ112は、図3Aに示したフォーム情報テーブルから、ユーザのユーザ識別情報Bに対応するフォーム情報Cを読み出す。さらに、プロセッサ112は、読み出したフォーム情報Cが示すフォーム10に従って、出力情報14を表示する。プロセッサ112は、図6Bに示したチェックボックス以外の情報と、出力情報14とを組み合わせる。これにより、プロセッサ112は、図6Cに示すように、無属性以外の属性を示す属性情報16と、当該属性に対応付けられたエレメント情報12及びその話者情報18と、出力情報14とを含むUI画像を表示する。
FIG. 6C is a diagram illustrating a UI image used to move the
S148において、ユーザは、図6Cに示したUI画像の出力情報14に含まれ、結論、期限又はTo-Doのいずれかの属性情報16に対応付けられたボックスと、エレメント情報12に対応付けられた属性情報16とを参照する。さらに、ユーザは、このUI画像に対して、属性情報16に対応付けられたエレメント情報12を、同じ属性情報16に対応付けられた出力情報14のなかのボックスのなかに移動させる操作を行う。この操作は、マウス117を用いてエレメント情報12等をドラッグ・アンド・ドロップする操作であってよい。
In S148, the user selects a box that is included in the
なお、エレメント情報12に話者情報18が対応付けられている場合には、ユーザは、エレメント情報12と、このエレメント情報12に対応付けられた話者情報18とを、出力情報14のなかのボックスに移動させる操作を行う。端末装置100のプロセッサ112は、ユーザの操作を、入力インターフェイス116を介して受け入れる。プロセッサ112は、受け入れたユーザの操作に従って、エレメント情報12、又はエレメント情報12及び話者情報18を、出力情報14のボックスそれぞれのなかに移動させて表示する。
Note that if the
S150において、図1は、全てのエレメント情報12が出力情報14に含まれるボックスのいずれかに移動されると、プロセッサ112は、会議の議事録を生成する。さらに、プロセッサ112は、会議の議事録の情報を生成し、図1に示した出力情報14として、出力インターフェイス111を介してディスプレイに表示したり、通信ネットワーク(不図示)を介して他の装置(不図示)に送信したりする等の処理を行う。
At S150, FIG. 1 shows that once all the
なお、ここでは、図6Aに示したS120~S150の全てを端末装置100が行う場合を説明したが、これら全ての処理を端末装置100が実行する必要はない。例えば、例えば、端末装置100が、S124の処理において生成したテキスト情報をサーバ装置(不図示)に送信し、サーバ装置がS126~S132の処理を実行してよい。この場合には、S134の処理の前に、サーバ装置がS126~S132の処理の結果を端末装置100に受信し、端末装置100がこれらの処理を受信してS134~S150の処理を行うこととなる。
Note that although a case has been described here in which the
なお、以上、ユーザが、マウス117を用いた手作業で、エレメント情報12を、出力情報14のフォーム10に含まれ、属性情報16それぞれが付されたボックスの中に移動させる場合を説明した。一方、出力情報14に含まれるボックスそれぞれに、結論、期限及びTo-Doの属性情報16それぞれを付すことにより、プロセッサ112は、このような移動を自動的に行うことができる。
In addition, the case where the user manually moves the
つまり、プロセッサ112は、プロセッサ112がエレメント情報12に付された属性と、出力情報14のフォーム10に付された属性情報16とを比較することにより、プロセッサ112は、このような移動を自動的に行うことができる。具体的には、プロセッサ112は、結論の属性情報16が付されたエレメント情報12を、自動的に、出力情報14のフォーム10において、結論の属性情報16が付されたボックスのなかに移動させられる。また、プロセッサ112は、期限の属性情報16が付されたエレメント情報12を、自動的に、出力情報14のフォーム10において、期限の属性情報16が付されたボックスのなかに移動させられる。さらに、プロセッサ112は、To-Doの属性情報16及び話者情報18が付されたエレメント情報12を、自動的に、出力情報14のフォーム10において、To-Doの属性情報16が付されたボックスのなかに移動させられる。
In other words, by comparing the attribute attached to the
以上説明した端末装置100によれば、会議等の音声情報からエレメント情報12を生成し、生成したエレメント情報12に、その属性を適切に対応付けることができる。従って、音声情報から、適切な議事録、様々な記録及び資料を生成できる。また、エレメント情報12に対応付けられる属性が自動的に選択されてユーザに勧められるので、ユーザが音声情報から議事録等を生成する手間が大幅に省かれる。また、端末装置100は、多くの人が参加するオフラインミーティング及びオンラインミーティングの音声から、議事録等を自動的に生成するために役立つ。
According to the
6.変形例等
なお、以上、図6Aを参照して、「期限」等の属性がフラグを介してエレメント情報12に対応付けられ、編集される場合が説明されたが、属性は、必ずしもフラグを介してエレメント情報12に対応付けられなくてよい。また、図6Aを参照して、ユーザの操作に従って、出力情報14のフォーム10に含まれる項目にエレメント情報12が振り分けられる場合が説明された。しかしながら、図6Aに示したS144及びS146は必須ではない。つまり、ユーザがエレメント情報12と属性との対応付けを確定させた時点で、プロセッサ112は、エレメント情報12それぞれを、自動的に出力情報14のフォーム10に含まれる各項目に振り分けてよい。
6. Modifications, etc.Although a case has been described above with reference to FIG. 6A in which an attribute such as "deadline" is associated with the
また、以上説明した音声情報の処理方法は、会議の議事録の生成の他に、様々な記録及び資料の生成に応用されうる。また、エレメント情報12それぞれに対応付けられる属性情報16は、音声情報の処理方法の用途等に応じて、「無属性」、「期限」、「To-Do」及び「結論」以外に、例えば「主体」等の他の属性情報16を含んでよい。あるいは、属性情報16は、「無属性」、「期限」、「To-Do」及び「結論」の全てを含まなくてよい。また、図1等に示した各種情報の表示の態様は例示であって、表示の態様は、ユーザの好み、端末装置100の用途などに応じて、適宜、変更されうる。
Furthermore, the audio information processing method described above can be applied to the generation of various records and materials in addition to the generation of meeting minutes. In addition, the
また、以上、エレメント情報12に無属性、結論、期限及びTo-Doの4種類の属性情報16が対応付けられる場合が例示されたが、属性情報16の種類はこれら4種類に限らず、適宜、増やされたり減らされたりしてよい。また、以上、エレメント情報12の全てに属性情報16が対応付けられる場合が例示された。一方、例えば、エレメント情報12に無属性と無属性以外の2種類の属性情報16のみを対応付け、無属性以外の属性情報16に対応付けられたエレメント情報12に、ユーザが任意の種類の属性情報16を対応付けてよい。あるいは、無属性以外の属性情報16に対応付けられたエレメント情報12に、ユーザが、任意に、結論、期限及びTo-Doのいずれかの種類の属性情報16を対応付けてよい。
Further, although the case where four types of
実施形態において明示的に説明された装置によってだけでなく、ソフトウェア、ハードウェア又はこれらの組み合わせにより実現されうる。具体的には、実施形態において説明された処理及び手順は、集積回路、揮発性メモリ、不揮発性メモリ、磁気ディスク、光ストレージ等の媒体に、当該処理に相当するロジックを実装することにより実現されうる。また、実施形態において説明された処理及び手順は、それらの処理及び手順をコンピュータプログラムとして実装されえ、端末装置及びサーバ装置を含む各種のコンピュータにより実行されうる。 It can be realized not only by the devices explicitly described in the embodiments, but also by software, hardware, or a combination thereof. Specifically, the processes and procedures described in the embodiments are realized by implementing logic corresponding to the processes in a medium such as an integrated circuit, volatile memory, nonvolatile memory, magnetic disk, or optical storage. sell. Furthermore, the processes and procedures described in the embodiments can be implemented as computer programs and can be executed by various computers including terminal devices and server devices.
実施形態において、単一の装置、ソフトウェア、コンポーネント、及び/又は、モジュールによって実行されると説明された処理及び手順は、複数の装置、複数のソフトウェア、複数のコンポーネント、及び/又は、複数のモジュールによって実行されうる。また、実施形態において、単一のメモリ及び記憶装置に格納される旨が説明された各種情報は、単一の装置に含まれる複数のメモリ又は複数の装置に分散して配置された複数のメモリに分散して格納されうる。さらに、実施形態において説明された複数のソフトウェア及びハードウェアは、それらをより少ない構成要素に統合することにより、又は、より多い構成要素に分解することにより実現されうる。 In embodiments, processes and procedures described as being performed by a single device, software, component, and/or module may be performed by multiple devices, software, components, and/or modules. can be executed by Furthermore, in the embodiments, various types of information described as being stored in a single memory and storage device may be stored in multiple memories included in a single device or multiple memories distributed and arranged in multiple devices. can be distributed and stored. Furthermore, the software and hardware described in the embodiments can be implemented by integrating them into fewer components or by decomposing them into more components.
以上、一実施形態が説明されたが、この実施形態は、例として提示されたものであり、発明の範囲を限定することを意図されていない。これら新規な実施形態は、その他の様々な形態で実施されることができ、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更され得る。これら実施形態やその変形は、実施形態の範囲及び要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although one embodiment has been described above, this embodiment is presented as an example and is not intended to limit the scope of the invention. These novel embodiments may be implemented in various other forms, and various omissions, substitutions, and changes may be made without departing from the spirit of the invention. These embodiments and their modifications are included within the scope and gist of the embodiments, as well as within the scope of the invention described in the claims and its equivalents.
10 フォーム、12 エレメント情報、14 出力情報、16 属性情報、18 話者情報、20 チェックボックス、100 端末装置、111 出力インターフェイス、112 プロセッサ、114 通信インターフェイス、116 入力インターフェイス、117 マウス、118 ハードキー、119 マイク
10 form, 12 element information, 14 output information, 16 attribute information, 18 speaker information, 20 check box, 100 terminal device, 111 output interface, 112 processor, 114 communication interface, 116 input interface, 117 mouse, 118 hard key, 119 Mike
Claims (12)
前記少なくとも一つのプロセッサは、
ユーザによる入力操作に基づいて、一又は複数の話者の発言の内容を含む音声情報の入力を受け付け、
受け付けた前記音声情報に基づいて、前記一又は複数の話者の発言の内容を示すテキスト情報を生成し、
生成した前記テキスト情報を一又は複数のエレメント情報に分割し、
分割した各エレメント情報に対して少なくとも一つの属性情報を対応付け、
前記各エレメント情報に対応付けられた前記属性情報に基づいて、一又は複数の項目を有するフォーム情報において前記各エレメント情報の少なくとも一部が前記一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報を生成する、
ための処理を実行するように構成された、
処理装置。 A processing device comprising at least one processor,
The at least one processor includes:
Accepts input of audio information including the contents of one or more speakers' utterances based on an input operation by a user,
generating text information indicating the content of the utterances of the one or more speakers based on the received voice information;
Divide the generated text information into one or more element information,
Associate at least one attribute information with each divided element information,
Based on the attribute information associated with each element information, in form information having one or more items, at least a part of each element information is associated with any one of the one or more items. generate output information,
configured to perform processing for
Processing equipment.
ユーザによる入力操作に基づいて、一又は複数の話者の発言内容を含む音声情報の入力を受け付ける段階と、
受け付けた前記音声情報に基づいて、前記一又は複数の話者の発言内容を示すテキスト情報を生成する段階と、
生成した前記テキスト情報を一又は複数のエレメント情報に分割する段階と、
分割した各エレメント情報に対して少なくとも一つの属性情報を対応付け、
前記各エレメント情報に対応付けられた前記属性情報に基づいて、一又は複数の項目を有するフォーム情報において前記各エレメント情報の少なくとも一部が前記一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報を生成する段階と、
を含む処理方法。 In a computer including at least one processor, the method is performed by the at least one processor executing a predetermined instruction command, the method comprising:
receiving input of audio information including utterances from one or more speakers based on an input operation by a user;
generating text information indicating the content of the one or more speakers' utterances based on the received voice information;
dividing the generated text information into one or more element information;
Associate at least one attribute information with each divided element information,
Based on the attribute information associated with each element information, in form information having one or more items, at least a part of each element information is associated with any one of the one or more items. generating output information based on the
processing methods including;
ユーザによる入力操作に基づいて、一は複数の話者の発言内容を含む音声情報の入力を受け付け、
受け付けた前記音声情報に基づいて、前記一又は複数の話者の発言内容を示すテキスト情報を生成し、
生成した前記テキスト情報を一又は複数のエレメント情報に分割し、
分割した各エレメント情報に対して少なくとも一つの属性情報を対応付け、
前記各エレメント情報に対応付けられた前記属性情報に基づいて、一又は複数の項目を有するフォーム情報において前記各エレメント情報の少なくとも一部が前記一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報を生成する、
処理を行うように構成されたプロセッサとして機能させる、
処理プログラム。
a computer including at least one processor;
Based on the input operation by the user, one receives the input of voice information including the content of utterances from a plurality of speakers;
Generating text information indicating the content of the one or more speakers' statements based on the received voice information,
Divide the generated text information into one or more element information,
Associate at least one attribute information with each divided element information,
Based on the attribute information associated with each element information, in form information having one or more items, at least a part of each element information is associated with any one of the one or more items. generate output information,
act as a processor configured to perform processing;
Processing program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022055008A JP2023147490A (en) | 2022-03-30 | 2022-03-30 | Processing device, processing method and processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022055008A JP2023147490A (en) | 2022-03-30 | 2022-03-30 | Processing device, processing method and processing program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023147490A true JP2023147490A (en) | 2023-10-13 |
Family
ID=88288980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022055008A Pending JP2023147490A (en) | 2022-03-30 | 2022-03-30 | Processing device, processing method and processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023147490A (en) |
-
2022
- 2022-03-30 JP JP2022055008A patent/JP2023147490A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5774459B2 (en) | Discourse summary template creation system and discourse summary template creation program | |
JP2005055782A (en) | Data input system, handy terminal, data input method, program, and recording medium | |
CN104508604A (en) | Generating string predictions using contexts | |
JP2001249920A (en) | Method and system for providing candidate for text from inference input source | |
US20110041177A1 (en) | Context-sensitive input user interface | |
JP2009140467A (en) | Method and system for providing and using editable personal dictionary | |
US9772816B1 (en) | Transcription and tagging system | |
JP2009140466A (en) | Method and system for providing conversation dictionary services based on user created dialog data | |
CN102323858B (en) | Identify the input method of modification item in input, terminal and system | |
Lin et al. | Rambler: Supporting Writing With Speech via LLM-Assisted Gist Manipulation | |
JP2022025665A (en) | Summary sentence generation device, summary sentence generation method, and program | |
JP2008052676A (en) | Computer-executable program and method, and processor | |
US11182553B2 (en) | Method, program, and information processing apparatus for presenting correction candidates in voice input system | |
Sodimana et al. | Text Normalization for Bangla, Khmer, Nepali, Javanese, Sinhala and Sundanese Text-to-Speech Systems. | |
JP2012511759A (en) | User specified phrase input learning | |
JP2023147490A (en) | Processing device, processing method and processing program | |
CN111813948A (en) | Information processing method and device and electronic equipment | |
US10540987B2 (en) | Summary generating device, summary generating method, and computer program product | |
JP7247593B2 (en) | Generation device, software robot system, generation method and generation program | |
JP2019121075A (en) | Method for creating summary from audio data in conference | |
JP2011113490A (en) | System and program for generating conversation summary | |
JP2004020739A (en) | Device, method and program for preparing minutes | |
Schuman | Speed ehr documentation with voice recognition software: incorporating voice recognition technology into your ehr will help you spend less time documenting and more time with patients | |
JP7192331B2 (en) | Information processing device and program | |
JP6818916B2 (en) | Summary generator, summary generation method and summary generation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20240322 |