JP6733452B2 - Speech analysis program, speech analysis device, and speech analysis method - Google Patents
Speech analysis program, speech analysis device, and speech analysis method Download PDFInfo
- Publication number
- JP6733452B2 JP6733452B2 JP2016184176A JP2016184176A JP6733452B2 JP 6733452 B2 JP6733452 B2 JP 6733452B2 JP 2016184176 A JP2016184176 A JP 2016184176A JP 2016184176 A JP2016184176 A JP 2016184176A JP 6733452 B2 JP6733452 B2 JP 6733452B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speakers
- characters
- graph
- graph showing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、音声分析プログラム、音声分析装置、及び音声分析方法に関する。 The present invention relates to a voice analysis program, a voice analysis device, and a voice analysis method.
ディスカッションの際の話者の音声を集音し、雑音レベルを超える発話がなされている時間帯を帯グラフで表示することで、発話がなされている期間を可視化する技術が知られている。 BACKGROUND ART A technique is known in which a speaker's voice during a discussion is collected and a time period in which a utterance exceeding a noise level is being displayed is displayed on a band graph to visualize a period during which a utterance is made.
しかし、話者が声を発している期間は長いものの、ゆっくり話しているだけであったり、あまり意味のない唸り等を或る程度の音量でマイクが検出しているような場合、これらの発話がなされている時間帯は帯グラフで表示される。このように、これらの発話はディスカッションとしてあまり意味がないにもかかわらず、帯グラフでは活発な議論があったかのように表示されてしまう場合がある。 However, even though the speaker has been speaking for a long period of time, if the microphone is only speaking slowly, or if the microphone detects a nonsensical growl at a certain volume, these utterances may occur. The time zone in which is done is displayed as a band graph. As described above, although these utterances do not make much sense as discussions, they may be displayed as if they were active discussions in the obi graph.
1つの側面では、本発明は、ディスカッションにおいてどの程度の情報が発信されているのかを高精度に把握できるようにすることを目的とする。 In one aspect, an object of the present invention is to make it possible to grasp with high accuracy how much information is transmitted in a discussion.
なお、前記目的に限らず、後述する発明を実施するための形態に示す各構成により導かれる作用効果であって、従来の技術によっては得られない作用効果を奏することも本発明の他の目的の1つとして位置付けることができる。 It is to be noted that the present invention is not limited to the above-mentioned object, and it is also an object of the present invention to exhibit the operational effects that are obtained by the respective configurations shown in the modes for carrying out the invention to be described later, and which cannot be obtained by the conventional technology. Can be positioned as one of the
1つの側面では、音声分析プログラムは、以下の処理をコンピュータに実行させてよい。前記処理は、複数の話者のそれぞれの音声を受け付ける処理を含んでよい。また、前記処理は、受け付けた前記複数の話者のそれぞれの音声を音声認識によりテキスト化する処理を含んでよい。さらに、前記処理は、所定時間ごとの前記複数の話者のそれぞれの音声に対応するテキストの文字数を特定する処理を含んでよい。また、前記処理は、前記所定時間ごとに、前記複数の話者のそれぞれの音声に対応した前記文字数を示すグラフを出力する処理を含んでよい。さらに、前記複数の話者のそれぞれは、複数の第1分類グループのうちのいずれかに属するとともに、複数の第2分類グループのうちのいずれかに属し、前記複数の第1分類グループのそれぞれには、互いに異なる第2分類グループに属する話者が含まれてよい。さらに、前記文字数を示すグラフは、同一の第1分類グループに属する複数の話者を対象として生成されるグラフであってよい。また、前記処理は、前記文字数を示すグラフを、同一の第2分類グループに属する複数の話者を対象として生成されるグラフに切り替える制御を行なう処理を含んでよい。
別の側面では、音声分析プログラムは、以下の処理をコンピュータに実行させてよい。前記処理は、複数の話者のそれぞれの音声を受け付ける処理を含んでよい。また、前記処理は、受け付けた前記複数の話者のそれぞれの音声を音声認識によりテキスト化する処理を含んでよい。さらに、前記処理は、所定時間ごとの前記複数の話者のそれぞれの音声に対応するテキストの文字数を特定する処理を含んでよい。また、前記処理は、前記所定時間ごとに、前記複数の話者のそれぞれの音声に対応した前記文字数を示すグラフを出力する処理を含んでよい。また、前記処理は、前記文字数を示すグラフを、時間軸及び文字数軸を含む表示範囲上に、前記所定時間ごとの前記複数の話者のそれぞれの音声に対応した前記文字数をプロットした折れ線グラフと、前記表示範囲上に、前記所定時間ごとの前記複数の話者のそれぞれの音声に対応した前記文字数の累積値を示す棒グラフと、の間で切り替える制御を行なう処理を含んでよい。
In one aspect, the voice analysis program may cause a computer to execute the following processing. The process may include a process of receiving voices of a plurality of speakers. Further, the processing may include processing of converting the received voices of the plurality of speakers into text by voice recognition. Further, the process may include a process of specifying the number of characters of the text corresponding to each voice of the plurality of speakers at predetermined time intervals. Further, the process may include a process of outputting a graph showing the number of characters corresponding to each voice of the plurality of speakers at the predetermined time intervals. Furthermore, each of the plurality of speakers belongs to any one of the plurality of first classification groups and also belongs to any one of the plurality of second classification groups, and to each of the plurality of first classification groups. May include speakers belonging to different second classification groups. Further, the graph showing the number of characters may be a graph generated for a plurality of speakers belonging to the same first classification group. Further, the process may include a process of controlling to switch the graph showing the number of characters to a graph generated for a plurality of speakers belonging to the same second classification group.
In another aspect, the voice analysis program may cause a computer to execute the following processing. The process may include a process of receiving voices of a plurality of speakers. Further, the processing may include processing of converting the received voices of the plurality of speakers into text by voice recognition. Further, the process may include a process of specifying the number of characters of the text corresponding to each voice of the plurality of speakers at predetermined time intervals. Further, the process may include a process of outputting a graph showing the number of characters corresponding to each voice of the plurality of speakers at the predetermined time intervals. Further, the processing is a line graph in which a graph indicating the number of characters is plotted on a display range including a time axis and a character number axis, and the number of characters corresponding to each voice of the plurality of speakers at the predetermined time is plotted. , A bar graph showing a cumulative value of the number of characters corresponding to each voice of the plurality of speakers for each of the predetermined times may be included in the display range, and a process of performing control for switching between the bar graph and the bar graph may be included.
1つの側面では、ディスカッションにおいてどの程度の情報が発信されているのかを高精度に把握できる。 In one aspect, it is possible to accurately grasp how much information is being transmitted in the discussion.
以下、図面を参照して本発明の実施の形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図はない。例えば、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。なお、以下の実施形態で用いる図面において、同一符号を付した部分は、特に断らない限り、同一若しくは同様の部分を表す。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. However, the embodiments described below are merely examples, and are not intended to exclude various modifications and application of techniques not explicitly shown below. For example, the present embodiment can be variously modified and implemented without departing from the spirit thereof. In addition, in the drawings used in the following embodiments, parts denoted by the same reference numerals represent the same or similar parts unless otherwise specified.
〔1〕一実施形態
〔1−1〕音声分析システムの構成例
一実施形態に係る音声分析システムは、例えば、ディスカッションにおける発言内容の分析に利用可能である。ディスカッションとしては、例えば、複数人が参加して発言する授業(例えば協調学習)や会議等が挙げられる。
[1] One Embodiment [1-1] Configuration Example of Speech Analysis System The speech analysis system according to one embodiment can be used, for example, for analyzing the content of a statement in a discussion. Examples of the discussion include a class in which a plurality of people participate and speak (for example, collaborative learning), a conference, and the like.
以下の説明では、音声分析システムが、大学発教育支援コンソーシアム(COREF)が開発した「知識構成型ジグソー法」(以下、単に「ジグソー法」と表記する)という協調学習法に利用される場合を例に挙げて説明する。アクティブラーニングの一例であるジグソー法では、以下の流れで授業が行なわれる。 In the following explanation, the case where the speech analysis system is used in a collaborative learning method called “knowledge composition type jigsaw method” (hereinafter simply referred to as “jigsaw method”) developed by the Consortium for Educational Support from University (COREF) An example will be described. In the jigsaw method, which is an example of active learning, lessons are given in the following flow.
(1)出題者(例えば教師)が、いくつかの知識を「知識の部品」として組み合わせることで解けるようになる「課題」を設定する。 (1) A questioner (for example, a teacher) sets “tasks” that can be solved by combining some knowledge as “knowledge parts”.
(2)生徒は、「課題」に対して一人で思いつく回答を書く。 (2) Students write answers that they can think of by themselves for the “assignment”.
(3)生徒を、同じ資料を読み合うグループに分ける。生徒は、資料に書かれた内容や意味を話し合いグループで理解を深める。この資料は、グループごとに異なる「知識の部品」について書かれたものである。ここでの活動は、「エキスパート活動」と呼ばれる。 (3) Divide students into groups that read the same materials. Students discuss the contents and meanings of the materials to deepen their understanding in groups. This material describes the "parts of knowledge" that are different for each group. The activity here is called "expert activity".
(4)生徒を、違う「知識の部品」についての資料を読んだ生徒が一人ずついる新たなグループに分ける。生徒は、自身のエキスパート活動でわかってきた内容を新たなグループ内で説明し合い、理解が深まったところで、それぞれの「知識の部品」を組み合わせて、「課題」への答えを作成する。ここでの活動は、「ジグソー活動」と呼ばれる。 (4) Divide students into new groups, one for each student who has read a different "part of knowledge" material. Students explain what they have learned in their own expert activities in a new group, and when they have a deeper understanding, they combine each "knowledge part" to create an answer to the "task". The activities here are called "jigsaw activities".
(5)ジグソー活動のグループごとに答えを根拠とともに発表しあう。 (5) Present the answers with the basis for each jigsaw activity group.
(6)生徒は、一人で「課題」に対する答えを記述する。 (6) The student writes the answer to the "task" by himself.
音声分析システムは、例えば、上記(4)のジグソー活動における各生徒の会話音声を収集・分析し、生徒ごとの発話量をグラフ表示することで、授業中の生徒のディスカッションの状況を可視化できる。 For example, the voice analysis system collects and analyzes the conversation voice of each student in the jigsaw activity of (4) above and displays the utterance amount for each student in a graph to visualize the discussion situation of the students during the lesson.
これにより、教師は、ディスカッションにおいてどの程度の情報が発信されているのかを高精度に把握でき、各生徒が上記(3)のエキスパート活動で得た知識の理解度や授業への参加意欲等を適切に捉えることができる。例えば、教師は、音声分析システムが出力したグラフと、上記(2)や(6)における書面又は電子データとを判断材料として、様々な観点から生徒の学びの変容を適切に捉えることができる。 As a result, the teacher can grasp with high accuracy how much information is being transmitted in the discussion, and the understanding level of each student's knowledge gained through the expert activity in (3) above and the motivation to participate in the lesson. Can be properly captured. For example, the teacher can appropriately grasp the transformation of the student's learning from various points of view, using the graph output by the voice analysis system and the document or electronic data in (2) and (6) above as a judgment material.
なお、音声分析システムは、上記(4)のジグソー活動に加えて、又は、代えて、上記(3)のエキスパート活動や上記(5)のグループごとの発表について音声の収集・分析を行ない、グラフ表示を行なってもよい。 In addition to or in place of the jigsaw activity in (4) above, the voice analysis system collects/analyzes voices regarding expert activities in (3) above and presentations by group in (5) above. You may display.
〔1−2〕音声分析システムの構成例
次に、図1を参照して、一実施形態に係る音声分析システム1について説明する。図1に示すように、一実施形態に係る音声分析システム1は、例示的に、コンピュータ10、ネットワーク20、及び、端末30をそなえてよい。
[1-2] Configuration Example of Speech Analysis System Next, a speech analysis system 1 according to an embodiment will be described with reference to FIG. As shown in FIG. 1, the voice analysis system 1 according to the embodiment may include a
コンピュータ10は、複数の話者の発話内容について音声分析を行なう音声分析装置の一例である。なお、話者とは、ディスカッションの参加者であってよく、例えば、上述したジグソー法では生徒であってよい。
The
コンピュータ10としては、例えば、デスクトップやラップトップ等のPC(Personal Computer)、タブレット、スマートフォン、PDA(Personal Digital Assistant)、或いはサーバ等の種々の情報処理装置が挙げられる。
Examples of the
図1に示すように、コンピュータ10は、例示的に、集音装置11、音声変換部12、グラフ出力部13、発話データベース(DB;Database)14、及び、表示装置15をそなえてよい。
As illustrated in FIG. 1, the
集音装置11は、音声を集音する装置である。集音装置11が集音した話者の音声は音声変換部12に出力される。集音装置11は、コンピュータ10に有線又は無線で接続されてもよいし、コンピュータ10に内蔵されてもよい。集音装置11としては、例えば、ピンマイク、ヘッドセット、イヤフォンマイク等の装着型マイクロフォン、ハンドマイク等の把持型又は据置型マイクロフォン等の種々の形態のマイクロフォンが挙げられる。
The
なお、集音装置11は、コンピュータ10に1つ又は複数存在してもよく、1つの集音装置11が1又は複数の話者の音声を集音してもよい。1つの集音装置11が複数の話者の音声を集音する場合、コンピュータ10は、集音装置11が集音した複数の話者の音声を話者認識処理によって話者ごとに認識する機能をそなえてもよい。或いは、音声分析システム1に後述する端末30(集音装置31)が存在する場合、コンピュータ10は集音装置11をそなえなくてもよい。
One or more
音声変換部12は、集音装置11が集音した音声を発話内容に対応するテキストに変換し、変換したテキストを発話データベース14に登録する。
The
グラフ出力部13は、発話データベース14が記憶する情報に基づいて、話者ごとの発話量の計時変化を示すグラフを生成して表示装置15に出力する。
The
発話データベース14は、音声変換部12により音声から変換されたテキストの情報を記憶するデータベースである。
The
表示装置15は、グラフ出力部13により生成・出力されたグラフを表示する。表示装置15としては、例えば、PCモニタやタッチパネル等のコンピュータ10に接続又は内蔵(搭載)されたディスプレイ、又は、プロジェクタ、プリンタ等が挙げられる。
The
ネットワーク20は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、及びインターネットのいずれか、又はこれらの任意の組み合わせを含んでよい。なお、ネットワーク20は、有線ネットワーク及び無線ネットワークの一方又は双方を含んでよい。
The
端末30は、音声を集音する集音装置31をそなえ、集音装置31で集音した話者の音声をネットワーク20を介してコンピュータ10に送信する。集音装置31としては、例えば、上述した集音装置11と同様のマイクロフォンが挙げられる。
The terminal 30 includes a
端末30は、集音装置31が接続された又は集音装置31を内蔵したコンピュータであってもよいし、通信機能をそなえた集音装置31そのものであってもよい。コンピュータとしては、例えば、上述したコンピュータ10と同様の情報処理装置、或いは、携帯電話等の通話装置が挙げられる。
The terminal 30 may be a computer to which the
なお、端末30は音声分析システム1に複数存在してもよいし、集音装置31が端末30に複数存在してもよい。また、コンピュータ10が集音装置11をそなえる場合には、端末30が音声分析システム1に存在しなくてもよい。以下の説明では、コンピュータ10が集音装置11により集音された音声に基づいて音声分析を行なうものとするが、集音装置31により集音された音声についても同様に音声分析を行なうことができる。
A plurality of terminals 30 may exist in the voice analysis system 1, and a plurality of
〔1−3〕音声分析処理の説明
次に、音声変換部12及びグラフ出力部13による音声分析処理について説明する。
[1-3] Description of Speech Analysis Processing Next, speech analysis processing by the
音声変換部12は、図1に例示するように、音声取得部121及びテキスト変換部122をそなえてよい。
The
音声取得部121は、複数の話者のそれぞれの音声を受け付ける受付部の一例である。例えば、音声取得部121は、集音装置11が集音した音声を取得し、取得した音声をテキスト変換部122に出力する。このとき、音声取得部121は、取得した音声を話者単位且つ発話単位でテキスト変換部122に出力してよい。
The
話者単位の音声とは、例えば、1つの集音装置11が一人の話者の音声を集音する場合、集音装置11単位で集音された音声となる。或いは、1つの集音装置11が複数の話者の音声を集音する場合、話者単位の音声は、話者認識処理により得られる話者ごとの音声となる。例えば、音声取得部121又は集音装置11は、取得した音声を話者ごとに認識し分離する話者認識機能を有してよい。
For example, when one
発話単位の音声とは、例えば、話者による連続した(一連の)発話の音声と位置付けられてよい。連続した発話とは、例えば、音声が検出されてから音声が途切れるまでの期間であってよい。一例として、音声取得部121は、一定時間以上連続して無音が検出された(換言すれば音声が検出されない)場合に、音声が途切れたことを検出してよい。なお、無音とは、検出された音声の強度が一定レベル未満であることを意味してよい。
The speech-based speech may be positioned as, for example, a continuous (series) speech of a speaker. The continuous utterance may be, for example, a period from when the voice is detected to when the voice is interrupted. As an example, the
テキスト変換部122は、音声取得部121が受け付けた複数の話者のそれぞれの音声を音声認識によりテキスト化するテキスト化部の一例である。例えば、テキスト変換部122は、音声取得部121が取得した音声に対して音声認識処理を施し、発話内容を示すテキストを取得する。
The
また、テキスト変換部122は、音声から変換したテキストに対応する文字数をカウントしてもよい。テキスト変換部122による文字数のカウントにより、意味のある言葉を対象とした発話量を取得できる。
Further, the
これにより、話者が声を発している期間は長いものの、ゆっくり話しているだけである場合や、あまり意味のない唸り等を或る程度の音量で集音装置11が検出しているような場合であっても、話者の発信した情報を定量的に捉えることができる。
As a result, although the speaker is uttering a long period of time, the
なお、音声から変換されたテキストは、かな・カナ・漢字・アルファベット・記号(句読点、長音等)のように複数の文字種を含んでもよい。この場合、テキストに対応する文字数のカウントは、これら全ての文字種のトータルの文字数でもよいし、記号等の一部の文字種を除外した文字数でもよい。なお、1つの漢字の文字数は、“1”とカウントされてもよいし、漢字の振り仮名の文字数でカウントされてもよい。また、カウント対象の文字は、テキスト内のディスカッションにおいて意味のある単語を構成する文字に限定されてもよい。意味のある単語は、例えば、コンピュータ10が有する辞書データに登録されている単語との比較によって識別されてもよい。さらに、カウント対象の文字から、“あー”や“えっと”等のディスカッションには意味のない言葉が除外されてもよい。
The text converted from the voice may include a plurality of character types such as kana, kana, kanji, alphabets, symbols (punctuation marks, long sound, etc.). In this case, the count of the number of characters corresponding to the text may be the total number of characters of all these character types or the number of characters excluding some character types such as symbols. Note that the number of characters in one kanji may be counted as “1” or may be counted in the number of kana furigana. The characters to be counted may be limited to the characters that make up a meaningful word in the discussion in the text. The meaningful word may be identified by comparison with a word registered in dictionary data included in the
なお、文字数の取得は、テキスト変換部122ではなく、グラフ出力部13が行なってもよい。
The acquisition of the number of characters may be performed by the
テキスト変換部122により変換されたテキストの情報は、関連する情報とともに、図2に例示する発話データベース14に登録される。
The text information converted by the
図2に示すように、発話データベース14は、例示的に、「日付」、「時刻」、「ユーザ」、「第1分類グループ」、「第2分類グループ」、「発話単位」、及び、「文字数」の項目を含んでよい。
As illustrated in FIG. 2, the
「日付」及び「時刻」には、集音装置11により音声が取得された、或いは、音声取得部121が音声を受け付けた日付及び時刻の情報が設定されてよい。「ユーザ」には、話者を識別する識別情報、例えばユーザID(Identifier)が設定されてよい。ユーザIDは、集音装置11ごとに予め設定されてもよいし、音声取得部121によって、話者認識により認識された話者ごとに、予め設定されたユーザIDに対応付けられてもよい。
In the “date” and the “time”, information on the date and time when the sound is acquired by the
「第1分類グループ」及び「第2分類グループ」のそれぞれには、ユーザに設定されたグループが設定されてよい。例えば、上述したジグソー法において、上記(4)のジグソー活動のグループが「第1分類グループ」に設定されてよく、上記(3)のエキスパート活動のグループが「第2分類グループ」に設定されてよい。 A group set by the user may be set in each of the “first classification group” and the “second classification group”. For example, in the jigsaw method described above, the jigsaw activity group of (4) above may be set to the "first classification group", and the expert activity group of (3) above may be set to the "second classification group". Good.
このように、複数のユーザのそれぞれは、複数の第1分類グループのうちのいずれかに属するとともに、複数の第2分類グループのうちのいずれかに属し、複数の第1分類グループのそれぞれには、互いに異なる第2分類グループに属するユーザが含まれてよい。 In this way, each of the plurality of users belongs to one of the plurality of first classification groups and also belongs to one of the plurality of second classification groups, and each of the plurality of first classification groups includes , Users belonging to different second classification groups may be included.
なお、図2の例では、音声分析システム1がジグソー法の授業に利用される場合を想定し、2つの分類グループを示しているが、分類グループの数はこれに限定されるものではない。発話データベース14には、ディスカッションの形態に応じて、1つの分類グループが設定されてもよいし、3つ以上の分類グループが設定されてもよい。
In the example of FIG. 2, two classification groups are shown assuming that the voice analysis system 1 is used in a jigsaw lesson, but the number of classification groups is not limited to this. In the
「発話単位」には、テキスト変換部122が変換した発話単位のテキストが設定されてよい。「文字数」には、テキスト変換部122(又はグラフ出力部13)によりカウントされた、発話単位の文字数が設定されてよい。
The text of the utterance unit converted by the
図1の説明に戻り、グラフ出力部13は、グラフ生成部131及び制御部132をそなえてよい。
Returning to the description of FIG. 1, the
グラフ生成部131は、コンピュータ10のオペレータによる操作に応じて、発話データベース14が記憶する情報に基づき、話者ごとの発話量の計時変化を示すグラフを生成し、表示装置15に出力する。なお、オペレータとは、ディスカッションにおける発話内容の分析を行なう者であってよく、例えば、上述したジグソー法では教師であってよい。
The
グラフ生成部131は、グラフを表示するインタフェースとして、コンピュータ10にインストールされているWebブラウザを使用してよい。なお、Webブラウザに代えて、他のアプリケーションが用いられてもよい。
The
グラフ生成部131により生成されるグラフの一例を図3に示す。グラフは、表示装置15の表示領域150におけるグラフ領域160に表示されてよい。表示領域150は、例えばWebブラウザのウィンドウ領域であってよい。グラフ領域160は、横軸の時間軸及び縦軸の文字数軸を含む表示範囲を有してよく、グラフは、グラフ領域160上に、一定時間ごとの複数のユーザのそれぞれの音声に対応した文字数をプロットした折れ線グラフであってよい。
FIG. 3 shows an example of the graph generated by the
グラフは、同一の第1分類グループに属する複数のユーザを対象として生成されてよく、ユーザごとに1つの折れ線で発話量が示されてよい。図3の例では、第1分類グループ“groupA”(図2参照)に属する“USER1”、“USER2”、及び“USER3”のそれぞれの発話内容のテキストに対応する文字数の折れ線が、それぞれ実線、破線、一点鎖線でグラフ領域160に示されている。なお、各ユーザの折れ線は、線種の違いの他に、線の色や太さの違い等、種々の手法により他のユーザの折れ線と区別されてよい。
The graph may be generated for a plurality of users belonging to the same first classification group, and the amount of speech may be indicated by one broken line for each user. In the example of FIG. 3, the polygonal lines of the number of characters corresponding to the text of each utterance content of “USER1,” “USER2,” and “USER3” belonging to the first classification group “groupA” (see FIG. 2) are solid lines, It is shown in the
グラフ生成部131は、例えば、オペレータから要求のあった第1分類グループに属する話者が一定時間に発話した文字数を発話データベース14に基づき特定する。そして、グラフ生成部131は、特定した文字数及び時刻に対応する点をグラフ領域160にプロットし、プロットした点を繋ぎ合わせることで、ユーザごとの折れ線を生成してよい。
The
ここで、文字数を特定する時間の範囲である一定時間(換言すれば、文字数の集計単位時間)としては、例えば、数十秒間〜数分間等の時間であってよい。この一定時間は、例えば、グラフ領域160の時間軸のスケール又はオペレータによる操作に応じて可変であってもよい。
Here, the fixed time (in other words, the total unit time of the number of characters) that is the range of the time for specifying the number of characters may be, for example, several tens of seconds to several minutes. This fixed time may be variable, for example, according to the scale of the time axis of the
一例として、一定時間が1分間である場合、図2に示す範囲における“USER1”が“15:45:00”〜“15:45:59”の1分間に発話した文字数は、“15:45:33”の“22”文字と、“15:45:42”の“8”文字とを合計した“30”文字となる。この場合、グラフ生成部131は、グラフの横軸における特定の時刻と、縦軸“30”(文字)とが交差する位置に点をマークすればよい。このように、グラフ生成部131は、ユーザごとに、一定時間ごとに発話した文字数を算出し、グラフ領域160にプロットすればよい。なお、グラフの横軸における特定の時刻とは、時間範囲の開始時刻〜終了時刻のいずれかの時刻でよく、例えば、開始時刻“15:45:00”、中間の時刻“15:45:30”、終了時刻“15:45:59”等が挙げられる。
As an example, when the fixed time is one minute, the number of characters uttered by “USER1” in the range shown in FIG. 2 from “15:45:00” to “15:45:59” is “15:45”. The total of "22" characters of ":33" and "8" characters of "15:45:42" is "30" characters. In this case, the
なお、発話データベース14に文字数の項目が存在しない場合(テキスト変換部122が文字数をカウントしない場合)、グラフ生成部131は、発話データベース14内のテキスト化された発話内容から文字数をカウントする処理を行なってもよい。
When the number of characters item does not exist in the utterance database 14 (when the
以上のように、グラフ生成部131、又は、テキスト変換部122及びグラフ生成部131は、所定時間ごとの複数の話者のそれぞれの音声に対応するテキストの文字数を特定する特定部の一例である。
As described above, the
また、グラフ生成部131は、所定時間ごとに、複数の話者のそれぞれの音声に対応した文字数を示すグラフを出力する出力部の一例である。
The
なお、グラフ生成部131は、グラフを生成する処理において、付加情報の収集を行なってもよい。付加情報とは、グラフ領域160に表示されるグラフに関連した情報であり、例えば、グラフ領域160の所定の領域に種々の態様で表示されてよい。
The
付加情報としては、例えば、ユーザが発話したテキストの情報、グラフにプロットされた文字数の数値情報、ユーザの属する第1又は第2分類グループに関する情報、その他、種々の情報が挙げられる。付加情報をグラフ領域160に表示することで、オペレータは、付加情報を補助的な判断材料として用いることができ、グラフに基づく発話状況をより高精度に分析できる。
Examples of the additional information include text information spoken by the user, numerical information on the number of characters plotted in the graph, information on the first or second classification group to which the user belongs, and various other information. By displaying the additional information in the
一例として、付加情報がテキスト情報である場合を説明する。図4に例示するように、表示領域150には、テキスト情報及び発話時刻を表示するテキスト領域166が表示されてもよい。例えば、テキスト領域166には、直近の一定時間(集計単位時間)内に発話された又はテキスト変換されたテキストが表示されてもよい。図4の例では、最新の時刻である“11:10”の直前の集計単位時間である“11:09:00”〜“11:09:59”(集計単位時間が1分の場合)の発話内容のテキストが、話者ごとに記載されている。
As an example, a case where the additional information is text information will be described. As illustrated in FIG. 4, the
なお、付加情報は、グラフ領域160にポップアップ表示されてもよい。一例として、図5に示すように、オペレータの操作するマウスカーソル164がグラフ領域160内に位置する場合、当該マウスカーソル164の位置するグラフ上の時刻に対応する各ユーザの発話内容及び時刻がポップアップ167として表示されてもよい。これにより、各ユーザの発話したテキストを文字数と対応付けて把握することが容易になる。
The additional information may be pop-up displayed in the
ポップアップ表示される付加情報の他の例として、図6に示すように、マウスカーソル164の位置するグラフ上の時刻に対応する各ユーザの発話した文字数の数値が、ポップアップ168として表示されてもよい。文字数の数値が付加情報として表示されることにより、各ユーザの発話した文字数を容易に把握することができる。
As another example of the additional information displayed in a pop-up, as shown in FIG. 6, a numerical value of the number of characters uttered by each user corresponding to the time on the graph where the
図6の例では、マウスカーソル164の位置するグラフ上の時刻と各ユーザの折れ線とが交差する符号A及びBの点について、“USER1”及び“USER2”の発話した文字数がそれぞれポップアップ168内に表示されている。なお、符号Cで示す“USER3”については、当該時刻の発話数が“0”であるためポップアップ168内への表示が省略されているが、発話数が“0”の場合もポップアップ168内に表示されてもよい。
In the example of FIG. 6, at the points A and B at which the time point on the graph where the
他の例として、図7に示すように、マウスカーソル164の位置する折れ線のユーザの属する第2分類グループが、ポップアップ169として表示されてもよい。これにより、1つの第1分類グループについてのグラフが表示されているときに、1つの折れ線のユーザがどの第2分類グループに属するかを容易に把握でき、第1分類グループ内での第2分類グループごとの理解度等の分析・比較が容易になる。
As another example, as shown in FIG. 7, the second classification group to which the user of the broken line where the
図7の例では、マウスカーソル164の位置する(接する)折れ線に対応する“USER1”の属する第2分類グループ“groupX”(図2参照)が、ポップアップ169内に表示されている。
In the example of FIG. 7, the second classification group “groupX” (see FIG. 2) to which “USER1” corresponding to the polygonal line where the
グラフ生成部131は、発話データベース14から取得した情報に基づき、図4〜図7に例示する少なくとも1つの付加情報を表示してよい。なお、グラフ生成部131は、グラフの生成の際に、取得した情報に基づきテキスト領域166又はポップアップ167〜169を表示するためのコードを生成し、表示領域150のコンテンツページに埋め込んでもよい。
The
なお、付加情報として表示される情報は、上述した情報に限定されるものではない。例えば、マウスカーソル164の位置する折れ線のユーザが作成したワークシートや教材等の情報がポップアップとして表示されてもよい。ワークシートとは、課題に対してユーザが記入した提出物であり、一例として、上述したジグソー法における(2)又は(6)で入力した情報が挙げられる。また、教材とは、生徒或いは教師が使用した資料であり、一例として、上述したジグソー法における(3)で使用した資料が挙げられる。
The information displayed as the additional information is not limited to the above-mentioned information. For example, information such as a worksheet or a teaching material created by the user on the polygonal line where the
制御部132は、表示装置15に表示されるグラフに関する種々の制御を行なう。
The
例えば、制御部132は、グラフ領域160に表示されるグラフの更新制御を行なってよい。一実施形態では、グラフ出力部13は、音声変換部12による発話データベース14への情報登録と並行してグラフを出力する。このため、制御部132は、グラフ生成部131に対して、所定周期として例えば1分間隔で、発話データベース14に新たに追加された情報をグラフに反映させてよい。所定周期を短くすることで、発話状況をよりリアルタイムに近い形で把握できる。
For example, the
また、制御部132は、オペレータからの要求に応じて、以下の(a)及び(b)の少なくとも1つの制御を行なってよい。
Further, the
(a)グラフのスケール変更制御
表示領域150には、Webページレイアウトとして、グラフのスケールや表示範囲を変更するためのズームボタン162、及び、スケール変更領域170が表示されている(図3等参照)。
(A) Graph Scale Change Control In the
ズームボタン162は、グラフ領域160の横軸のスケールを、1時間(“1h”)、3時間(“3h”)、6時間(“6h”)、12時間(“12h”)、全体(“All”)の中から選択して切り替えるボタンである。
The
スケール変更領域170は、プレビュー領域172に表示される全体のグラフから、2つの調整部174やスライダ176の操作により、グラフ領域160に表示する範囲を指定するための領域である。例えば、プレビュー領域172内で2つの調整部174(つまみ)を移動させることで、プレビュー領域172における調整部174の間のグラフがグラフ領域160に表示される。また、スライダ176をスライドさせることで、プレビュー領域172内のグラフを時間軸方向に移動させることができる。
The
制御部132は、オペレータによるズームボタン162或いはスケール変更領域170の操作入力を受け付けると、操作入力に応じたグラフをグラフ領域160に表示させるようにグラフ生成部131を制御してよい。
When the
例えば、図8の紙面上部に示すように、“20分”の表示スケールで文字数の集計単位時間が“2分”の場合において、表示スケールが“5分”に変更された場合、制御部132は、図8の紙面下部に示すように、グラフを“5分”の表示スケールに変更制御する。このように、制御部132は、文字数を示すグラフに対して表示範囲の時間スケールの変更を制御してよい。
For example, as shown in the upper part of the paper surface of FIG. 8, when the display unit of the number of characters is “2 minutes” in the display scale of “20 minutes” and the display scale is changed to “5 minutes”, the
ところで、図8に示すように、“12:00”〜“12:05”の間は“USER1”及び“USER2”の双方が発話している。しかし、二人が同時に発話することは考え難く、実際には、一方が発話し他方がそれに応じるといった会話の流れが存在するはずである。図8の紙面下部に示すように、単に、表示スケールを“20分”から“5分”に変更したとしても、グラフから会話の流れを把握することが難しい。 By the way, as shown in FIG. 8, both “USER1” and “USER2” are uttering during “12:00” to “12:05”. However, it is difficult for two people to speak at the same time, and in reality, there should be a conversation flow in which one speaks and the other responds. As shown in the lower part of the paper of FIG. 8, even if the display scale is simply changed from “20 minutes” to “5 minutes”, it is difficult to grasp the flow of conversation from the graph.
そこで、制御部132は、図9に例示するように、表示スケールの変更とともに、文字数の集計単位時間、換言すれば所定時間の長さを変更する制御を行なってよい。図9には、“5分”の表示スケールで、文字数の集計単位時間が“2分”の場合(図9の紙面上部参照)と、文字数の集計単位時間が“30秒”の場合(図9の紙面下部参照)とを示している。なお、図9には、便宜上、集計単位の区切りを表す一点鎖線を示している。
Therefore, as illustrated in FIG. 9, the
このように、表示スケールの変更に合わせて文字数の集計粒度を変化させることで、図9の紙面下部に示すように、“USER1”及び“USER2”のどちらが発話し、どちらがそれに応えたのかといった会話の流れを把握し易くなり、発話状況の分析精度を向上できる。 In this way, by changing the counting granularity of the number of characters according to the change of the display scale, as shown in the lower part of the paper surface of FIG. 9, a conversation such as “USER1” or “USER2” uttered and which responded to it It becomes easier to understand the flow of and the analysis accuracy of the utterance situation can be improved.
なお、制御部132は、表示スケールごとに適切な集計単位時間を対応付けて管理し、変更された表示スケールに対応する集計単位時間に切り替えてもよい。或いは、オペレータにより集計単位時間を変更可能な操作領域が表示領域150に設けられてもよい。換言すれば、表示スケールの変更とは独立して集計単位時間の変更が可能であってもよい。
In addition, the
図10に、表示領域150Aに表示される集計単位時間を変更する操作領域180の一例を示す。操作領域180には、例示的に、“30秒”、“1分”、“3分”等の固定値の切り替えが可能なボタンや、分及び秒の指定(入力)が可能な入力欄等が含まれてもよい。制御部132は、操作領域180で受け付けた操作入力に応じて、集計単位時間を変更してよい。なお、操作領域180は、マウスカーソル164等の所定の操作によってポップアップ表示されてもよい。また、操作領域180には、集計単位時間を直感的・視覚的に変更できるようなスライダが設けられてもよい。
FIG. 10 shows an example of the
(b)グラフ切替制御
表示領域150には、1つの第1分類グループに着目したグラフに代えて、他の観点により集計されたグラフが表示されてもよい。
(B) Graph switching control In the
(b−1)第2分類グループに着目したグラフ
図11は、1つの第2分類グループに着目したグラフの一例を示す図である。図11の例では、第2分類グループ“groupX”(図2参照)に属する“USER1”、“USER11”、及び“USER21”のそれぞれの発話内容のテキストに対応する文字数の折れ線が、それぞれ実線、破線、一点鎖線でグラフ領域160Aに示されている。
(B-1) Graph focusing on second classification group FIG. 11 is a diagram showing an example of a graph focusing on one second classification group. In the example of FIG. 11, the broken lines of the number of characters corresponding to the texts of the utterance contents of “USER1,” “USER11,” and “USER21” belonging to the second classification group “groupX” (see FIG. 2) are solid lines, It is shown in the graph area 160A by a broken line and a one-dot chain line.
このように、同じ第2分類グループに属するユーザのそれぞれによる互いに異なる第1分類グループでの発話量を比較することで、第2分類グループで学習した内容のユーザごとの理解度を比較・分析できる。これにより、例えば教師は、“USER21”の発話量が“USER1”及び“USER11”の発話量よりも少ないため、エキスパート活動における理解度が低い可能性があるといった点を認識できる。また、“USER21”の属する第1分類グループに着目したグラフを併せて参照するといった利用も可能である。 In this way, by comparing the utterance amounts of the users belonging to the same second classification group in different first classification groups, it is possible to compare and analyze the degree of understanding of the contents learned in the second classification group for each user. .. Thereby, for example, the teacher can recognize that the utterance amount of “USER21” is smaller than the utterance amounts of “USER1” and “USER11”, and thus the understanding level in the expert activity may be low. It is also possible to refer to the graph focusing on the first classification group to which "USER21" belongs together.
なお、図11に例示するグラフ領域160Aにおいても、上述したテキスト表示(図4参照)、マウスカーソル164の位置に応じたポップアップ表示(図5〜図7参照)、スケールや集計単位時間の変更(図8及び図9参照)等の制御が可能である。 Also in the graph area 160A illustrated in FIG. 11, the above-described text display (see FIG. 4), pop-up display according to the position of the mouse cursor 164 (see FIGS. 5 to 7), change of scale and total unit time (see FIG. 8 and 9) and the like can be controlled.
(b−2)第1又は第2分類グループにおける総発話量の積み上げグラフ
上述したグラフ領域160及び160Aには、集計単位時間ごとの発話量を示すグラフが表示されているが、これに限定されるものではない。例えば、グラフとして、複数のユーザのそれぞれの音声に対応した文字数の累積値を示す積み上げグラフ(棒グラフ)が用いられてもよい。
(B-2) Stacked graph of total utterance amount in the first or second classification group In the above-mentioned
図12は、積み上げグラフの一例を示す図である。図12の例では、第1分類グループ“groupA”(図2参照)に属する“USER1”、“USER2”、及び“USER3”のそれぞれの発話内容のテキストに対応する文字数を累積した棒グラフが、それぞれ実線、破線、一点鎖線でグラフ領域160Bに示されている。図12に示す棒グラフは、図3に示す折れ線の集計単位時間ごとの発話量をユーザごとに合計したものに対応する。なお、図12では、文字数の表示スケールを図3に示す表示スケールから変更している。 FIG. 12 is a diagram showing an example of a stacked graph. In the example of FIG. 12, the bar graphs in which the number of characters corresponding to the texts of the respective utterance contents of “USER1,” “USER2,” and “USER3” belonging to the first classification group “groupA” (see FIG. 2) are respectively accumulated, It is shown in the graph area 160B by a solid line, a broken line, and an alternate long and short dash line. The bar graph shown in FIG. 12 corresponds to the total of the utterance amount for each total unit time of the polygonal line shown in FIG. 3 for each user. In FIG. 12, the display scale of the number of characters is changed from the display scale shown in FIG.
このように、ユーザごとの発話量を時系列に沿って累積して表示することで、ユーザごとの総発話量を容易に比較・分析できる。 As described above, by accumulating and displaying the utterance amount for each user in time series, the total utterance amount for each user can be easily compared and analyzed.
なお、積み上げグラフによる発話量の表示は、図11を参照して説明したような1つの第2分類グループに着目した場合に適用されてもよい。また、図12に例示するグラフ領域160Bにおいても、上述したテキスト表示(図4参照)、マウスカーソル164の位置に応じたポップアップ表示(図5〜図7参照)、スケールや集計単位時間の変更(図8及び図9参照)等の制御が可能である。 The display of the utterance amount by the stacked graph may be applied when focusing on one second classification group as described with reference to FIG. 11. Also in the graph area 160B illustrated in FIG. 12, the above-described text display (see FIG. 4), pop-up display according to the position of the mouse cursor 164 (see FIGS. 5 to 7), change of scale and total unit time ( 8 and 9) and the like can be controlled.
以上のように、グラフ生成部131は、ユーザの発話量を示す種々の態様のグラフを出力できる。制御部132は、表示する分類グループや、表示形式(折れ線又は積み上げグラフ)等の要求をオペレータから受け付けると、これらの要求に応じたグラフの生成をグラフ生成部131に指示してよい。
As described above, the
図13に、表示領域150Bに表示されるグラフの条件指定画面190の一例を示す。条件指定画面190には、例示的に、表示グループ選択領域192、表示方法選択領域194、及び選択された条件でのグラフ出力を制御部132に指示するグラフ出力ボタン196が表示されてもよい。条件指定画面190は、例えばグラフ出力を行なうための初期画面であってもよい。
FIG. 13 shows an example of the graph condition designation screen 190 displayed in the
表示グループ選択領域192には、グラフ表示する分類グループのチェックボックス、及び、チェックされた分類グループから1つのグループを選択するプルダウンリストが含まれてもよい。表示方法選択領域194には、グラフの表示形式を折れ線又は積み上げグラフから選択するチェックボックスが含まれてもよい。
The display
制御部132は、条件指定画面190で指定された条件に基づいて、グラフ生成部131によるグラフの生成を制御してよい。
The
なお、図4に示すテキスト領域166、図10に示す操作領域180、及び、図13に示す条件指定画面190の少なくとも1つは、例えば、図示しない表示領域150上のメニューボタンの操作によって表示領域150上に表示されるようにしてもよい。
Note that at least one of the text area 166 shown in FIG. 4, the
また、制御部132は、時間軸の表示スケールや、グラフの表示形式の変更に応じて、文字数の軸方向(図3等の例では縦軸方向)の表示スケールの変更を制御してもよい。
Further, the
〔1−4〕動作例
次に、図14〜図16を参照して、上述の如く構成された音声分析システム1の動作例を説明する。
[1-4] Operation Example Next, an operation example of the speech analysis system 1 configured as described above will be described with reference to FIGS. 14 to 16.
〔1−4−1〕音声変換部の動作例
はじめに、音声変換部12の動作例について説明する。図14に例示するように、ディスカッションの開始に応じて、例えばオペレータによりコンピュータ10の音声変換部12の機能が起動されると(ステップA1)、音声取得部121は、話者単位、発話単位で集音装置11から発話内容を取り込む(ステップA2)。
[1-4-1] Operation Example of Voice Conversion Unit First, an operation example of the
テキスト変換部122は、音声取得部121が取得した話者単位、発話単位の発話内容を音声認識によりテキストに変換する(ステップA3)。そして、テキスト変換部122は、変換したテキストを、日付、時刻、話者(ユーザ)ID、分類グループ等の情報とともに、発話データベース14に登録する(ステップA4)。なお、このとき、テキスト変換部122は、変換したテキストの文字数をカウントし、カウントした文字数を発話データベース14に登録してもよい。
The
音声変換部12は、ディスカッションが終了するまで(ステップA5、ステップA5でNo)、話者単位、発話単位での発話内容の取り込みを行ない、ディスカッションが終了すると(ステップA5でYes)、処理が終了する。以上により、発話音声の取得、音声のテキストへの変換、及び発話データベース14の更新に関する処理が行なわれる。
The
〔1−4−2〕グラフ出力部の動作例
次に、グラフ出力部13の動作例について説明する。図15に例示するように、グラフ出力部13は、オペレータからのグラフ表示要求を待ち受ける(ステップB1、ステップB1でNo)。
[1-4-2] Operation Example of Graph Output Unit Next, an operation example of the
グラフ表示要求を受けた場合(ステップB1でYes)、グラフ生成部131は、発話データベース14に基づき、指定されたグループのグラフを生成し表示装置15に出力する(ステップB2)。このとき、グラフ生成部131は、発話データベース14内の集計単位時間ごとの文字数を集計し、ユーザごとの折れ線又は積み上げグラフを生成する。なお、グラフ生成部131は、付加情報を収集しグラフ領域160に設定してもよい。
When the graph display request is received (Yes in step B1), the
グラフ出力部13は、オペレータからグラフ表示変更要求を受けたか否かを判定する(ステップB3)。グラフ表示変更要求を受けた場合(ステップB3でYes)、制御部132は、グラフ生成部131に対して、グラフ表示変更要求に応じたグラフを表示装置15に表示させる制御を行ない(ステップB4)、処理がステップB5に移行する。一方、グラフ表示変更要求を受けていない場合(ステップB3でNo)、処理がステップB5に移行する。
The
ステップB5では、グラフ出力部13は、一定時間が経過したか否かを判定する。一定時間が経過していない場合(ステップB5でNo)、処理がステップB3に移行する。一方、一定時間が経過した場合(ステップB5でYes)、制御部132は、グラフ生成部131に対して、発話データベース14に基づきグラフを更新させ(ステップB6)、処理がステップB3に移行する。
In step B5, the
なお、ステップB5及びB6におけるグラフの更新は、Webブラウザによる定期的なページの更新により実現されてもよい。 The graph update in steps B5 and B6 may be realized by periodical page update by the Web browser.
〔1−4−3〕集計単位時間の変更処理の動作例
次に、図15のステップB4におけるグラフ表示変更処理の動作例について説明する。図16に例示するように、制御部132は、グラフ表示変更要求が集計単位時間の変更に係る要求か否かを判定する(ステップB11)。なお、この要求は、表示スケール変更を伴っていてもよく伴っていなくてもよい。
[1-4-3] Operation Example of Change Processing of Total Unit Time Next, an operation example of the graph display change processing in step B4 of FIG. 15 will be described. As illustrated in FIG. 16, the
集計単位時間の変更要求の場合(ステップB11でYes)、制御部132は、グラフの集計単位時間の設定情報に、表示スケールに対応する集計単位時間、又は、指定された集計単位時間を設定する(ステップB12)。また、制御部132は、表示スケールの変更を伴う場合には、設定情報に変更後の表示スケールを設定する(ステップB13)。なお、設定情報は、例えば後述する図17のメモリ10b等に記憶されてよい。
In the case of a request to change the aggregation unit time (Yes in step B11), the
そして、制御部132は、設定情報に基づき、グラフ生成部131に対して、グラフの表示変更を実行させる制御を行ない(ステップB14)、グラフ生成部131は設定情報に基づきグラフを更新し、処理が終了する。これにより、表示スケールの変更とともに又は表示スケールの変更とは独立して、集計単位時間が変更される。
Then, the
一方、グラフ表示変更要求が集計単位時間の変更に係る要求ではない場合(ステップB11でNo)、制御部132は、グラフ表示変更要求が表示スケールの変更に係る処理か否かを判定する(ステップB15)。表示スケールの変更に係る処理の場合(ステップB15でYes)、処理がステップB13に移行し、ステップB13及びB14の処理により、表示スケールが変更される。
On the other hand, if the graph display change request is not a request for changing the aggregation unit time (No in step B11), the
グラフ表示変更要求が表示スケールの変更に係る処理ではない場合(ステップB15でNo)、制御部132は、グラフ表示変更要求がグラフ種別の切り替えに係る要求か否かを判定する(ステップB16)。グラフ種別の切り替えに係る要求の場合(ステップB16でYes)、制御部132は、設定情報に変更後のグラフ種別を設定し(ステップB17)、処理がステップB14に移行する。ステップB14の処理により、表示する分類グループ、又は、表示形式等のグラフが切り替えられる。
When the graph display change request is not the process related to the display scale change (No in step B15), the
グラフ表示変更要求がグラフ種別の切り替えに係る要求ではない場合(ステップB16でNo)、制御部132は、グラフ表示変更要求に応じた制御を行ない(ステップB18)、処理が終了する。
When the graph display change request is not a request for switching the graph type (No in step B16), the
〔1−5〕コンピュータのハードウェア構成例
次に、上述したコンピュータ10のハードウェア構成例について説明する。図17に示すように、コンピュータ10は、例示的に、CPU(Central Processing Unit)10a、メモリ10b、記憶部10c、IF(Interface)部10d、I/O(Input / Output)部10e、及び読取部10fをそなえてよい。
[1-5] Computer Hardware Configuration Example Next, a hardware configuration example of the
CPU10aは、種々の制御や演算を行なうプロセッサ又は演算処理装置の一例である。CPU10aは、コンピュータ10内の各ブロックとバスで相互に通信可能に接続されてよい。プロセッサとしては、CPU10aに代えて、例えば、MPU、DSP、ASIC、FPGA等の集積回路が用いられてもよい。なお、MPUはMicro Processing Unitの略称であり、DSPはDigital Signal Processorの略称であり、ASICはApplication Specific Integrated Circuitの略称であり、FPGAはField-Programmable Gate Arrayの略称である。
The
メモリ10bは、種々のデータやプログラム等の情報を格納するハードウェアの一例である。メモリ10bとしては、例えばRAM(Random Access Memory)等の揮発性メモリが挙げられる。
The
記憶部10cは、種々のデータやプログラム等の情報を格納するハードウェアの一例である。記憶部10cとしては、例えばHDD(Hard Disk Drive)等の磁気ディスク装置、SSD(Solid State Drive)等の半導体ドライブ装置、不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ、SCM(Storage Class Memory)、ROM(Read Only Memory)等が挙げられる。
The
なお、図1に示す発話データベース14は、例えば、メモリ10b又は記憶部10cの記憶領域により実現されてよい。
The
また、記憶部10cは、コンピュータ10の各種機能の全部若しくは一部を実現するプログラム10hを格納してよい。CPU10aは、記憶部10cに格納されたプログラム10hをメモリ10bに展開して実行することにより、図1に示すコンピュータ10の音声変換部12及びグラフ出力部13としての機能を実現できる。
Further, the
IF部10dは、ネットワーク20との間の接続及び通信の制御等を行なう通信インタフェースの一例である。例えばIF部10dは、LAN、インフィニバンド(Infiniband)、光通信(例えばFC(Fibre Channel;ファイバチャネル))等に準拠したアダプタが挙げられる。プログラム10hは、ネットワーク20等からIF部10dを介してコンピュータ10にダウンロードされ、記憶部10cに格納されてもよい。
The
また、IF部10dは、集音装置11が接続されるアダプタ、例えば、音響信号入力用のフォーン端子、USB(Universal Serial Bus)、Bluetooth(登録商標)等に準拠したアダプタをそなえてもよい。
Further, the
I/O部10eは、マウス、キーボード、又は操作ボタン等の入力部、並びに、ディスプレイ、プロジェクタ、又はプリンタ等の出力部、の一方又は双方を含んでよい。なお、図1に示す表示装置15は、I/O部10eの出力部の一例である。
The I/
読取部10fは、記録媒体10gに記録されたデータやプログラムの情報を読み出すリーダの一例である。読取部10fは、記録媒体10gを接続可能又は挿入可能な接続端子又は装置を含んでよい。読取部10fとしては、例えばUSB等に準拠したアダプタ、記録ディスクへのアクセスを行なうドライブ装置、SDカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体10gにはプログラム10hが格納されてもよく、読取部10fが記録媒体10gからプログラム10hを読み出して記憶部10cに格納してもよい。
The
記録媒体10gとしては、例示的に、磁気/光ディスクやフラッシュメモリ等の非一時的な記録媒体が挙げられる。磁気/光ディスクとしては、例示的に、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disc)、ブルーレイディスク、HVD(Holographic Versatile Disc)等が挙げられる。フラッシュメモリとしては、例示的に、USBメモリやSDカード等が挙げられる。なお、CDとしては、例示的に、CD−ROM、CD−R、CD−RW等が挙げられる。また、DVDとしては、例示的に、DVD−ROM、DVD−RAM、DVD−R、DVD−RW、DVD+R、DVD+RW等が挙げられる。
Examples of the
上述したコンピュータ10のハードウェア構成は例示である。従って、コンピュータ10内でのハードウェアの増減(例えば任意のブロックの追加や削除)、分割、任意の組み合わせでの統合、又は、バスの追加若しくは削除等は適宜行なわれてもよい。
The hardware configuration of the
〔2〕その他
上述した一実施形態に係る技術は、以下のように変形、変更して実施することができる。
[2] Others The technique according to the above-described embodiment can be modified and changed as follows.
例えば、図1に示すコンピュータ10の各機能ブロックは、それぞれ任意の組み合わせで併合してもよく、分割してもよい。
For example, the respective functional blocks of the
また、コンピュータのCPU10aは、シングルプロセッサやシングルコアプロセッサに限定されるものではなく、マルチプロセッサやマルチコアプロセッサであってもよい。
The
さらに、コンピュータ10の機能は、例えばクラウド環境のように、ネットワーク20又は他のインターネット等のネットワークを介して、複数のコンピュータに分散又は冗長化して配置されてもよい。
Further, the functions of the
一例として、コンピュータ10のグラフ出力部13の機能がクラウドサーバに存在してもよい。この場合、コンピュータ10は、発話データベース14の情報をクラウドサーバに送信し、Webブラウザを介して、クラウドサーバのグラフ出力部13が提供するグラフ表示機能を利用してもよい。
As an example, the function of the
他の例として、コンピュータ10のグラフ出力部13及び発話データベース14の機能がクラウドサーバに存在してもよい。この場合、コンピュータ10は、音声データを変換したテキストデータを関連する情報とともにクラウドサーバに送信し、発話データベース14を更新してもよい。
As another example, the functions of the
上述した一実施形態では、音声分析システム1が1つの授業内容を分析する場合を例に挙げて説明したが、これに限定されるものではない。 In the above-described embodiment, the case where the voice analysis system 1 analyzes one lesson content has been described as an example, but the present invention is not limited to this.
例えば、発話データベース14には、一人の教師が複数のクラスのそれぞれに対して行なった複数の授業内容に係るテキストデータが記憶されてもよい。或いは、発話データベース14には、複数の教師のそれぞれが同一の又は異なるクラスに対して行なった複数の授業内容に係るテキストデータが記憶されてもよい。また、複数の発話データベース14がコンピュータ10に存在してもよい。
For example, the
そして、グラフ出力部13は、1つ又は複数の発話データベース14に基づいて、一人の教師が複数のクラスに対して行なった複数の授業間の発話内容の分析に用いるグラフを出力してもよい。或いは、グラフ出力部13は、複数の教師のそれぞれが行なった複数の授業間の発話内容の分析に用いるグラフを出力してもよい。これらのグラフには、上述した手法により、授業ごと、第1分類グループごと、又は、第2分類グループごとに、発話内容を示す折れ線や積み上げグラフが表示されてもよい。
Then, the
これにより、クラス間の発話内容の比較、教師間の授業の比較、或いは教材や資料の比較等を高精度に行なうことができる。また、比較により、次回の授業に用いる教材や資料等の見直しや最適化を図ることができ、例えば、分析によって得られる最適な教材や資料等を一覧表示することもできる。さらに、音声分析システム1に教材や資料等の管理システムを組み込むことで、協調学習の一元管理を行なうことも可能である。 This enables highly accurate comparison of utterance contents between classes, lessons between teachers, and comparison of teaching materials and materials. Further, by comparing, it is possible to review and optimize the teaching materials and materials used in the next lesson, and for example, it is possible to display a list of the optimal teaching materials and materials obtained by analysis. Furthermore, by incorporating a management system for teaching materials and materials into the voice analysis system 1, it is possible to perform centralized management of collaborative learning.
また、一実施形態では、音声分析システム1を協調学習に用いる場合を例に挙げて説明したが、これに限定されるものではない。 Further, in the embodiment, the case where the voice analysis system 1 is used for collaborative learning has been described as an example, but the present invention is not limited to this.
例えば、音声分析システム1は、企業や組織、団体等の一定のグループにおける会議等の分析に用いられてもよい。この場合、オペレータは、グループ内のメンバー(会議の参加者)の発話状況を分析でき、分析結果としてのグラフを、例えばメンバーの理解度や業務への意欲の判断等に用いることが可能である。 For example, the voice analysis system 1 may be used for analyzing a meeting or the like in a certain group such as a company, an organization, or an organization. In this case, the operator can analyze the utterance status of the members (meeting participants) in the group, and can use the graph as the analysis result, for example, to judge the understanding level of the members or their motivation for work. ..
〔3〕付記
以上の実施形態に関し、さらに以下の付記を開示する。
[3] Supplementary notes The following supplementary notes will be disclosed regarding the above-described embodiment.
(付記1)
複数の話者のそれぞれの音声を受け付け、
受け付けた前記複数の話者のそれぞれの音声を音声認識によりテキスト化し、
所定時間ごとの前記複数の話者のそれぞれの音声に対応するテキストの文字数を特定し、
前記所定時間ごとに、前記複数の話者のそれぞれの音声に対応した前記文字数を示すグラフを出力する、
処理をコンピュータに実行させることを特徴とする、音声分析プログラム。
(Appendix 1)
Accept each voice of multiple speakers,
Each voice of the plurality of accepted speakers is converted into text by voice recognition,
Specify the number of characters of the text corresponding to each voice of the plurality of speakers for each predetermined time,
Outputting a graph showing the number of characters corresponding to each voice of the plurality of speakers at the predetermined time intervals,
A speech analysis program characterized by causing a computer to execute processing.
(付記2)
前記文字数を示すグラフとともに、前記複数の話者のそれぞれに対応する付加情報を出力する処理を前記コンピュータに実行させることを特徴とする、付記1記載の音声分析プログラム。
(Appendix 2)
The speech analysis program according to appendix 1, wherein the computer is caused to execute a process of outputting additional information corresponding to each of the plurality of speakers together with the graph showing the number of characters.
(付記3)
前記付加情報は、前記複数の話者のそれぞれの音声に対応するテキストであることを特徴とする、付記2記載の音声分析プログラム。
(Appendix 3)
The voice analysis program according to Note 2, wherein the additional information is a text corresponding to each voice of the plurality of speakers.
(付記4)
前記文字数を示すグラフに対して表示範囲の時間スケールの変更を制御する処理を前記コンピュータに実行させることを特徴とする、付記1〜3のいずれか1項記載の音声分析プログラム。
(Appendix 4)
4. The speech analysis program according to any one of appendices 1 to 3, wherein the computer is caused to execute a process of controlling a change of a time scale of a display range with respect to the graph showing the number of characters.
(付記5)
前記所定時間の長さを変更し、
変更後の所定時間ごとの前記複数の話者のそれぞれの音声に対応するテキストの文字数を特定し、
前記変更後の所定時間ごとに、前記複数の話者のそれぞれの音声に対応した前記文字数を示すグラフを出力する、
処理を前記コンピュータに実行させることを特徴とする、付記1〜4のいずれか1項記載の音声分析プログラム。
(Appendix 5)
Change the length of the predetermined time,
Specify the number of characters of the text corresponding to each voice of the plurality of speakers for each predetermined time after the change,
Outputting a graph showing the number of characters corresponding to each voice of the plurality of speakers for each predetermined time after the change,
5. The voice analysis program according to any one of appendices 1 to 4, characterized in that the computer is caused to execute processing.
(付記6)
前記文字数を示すグラフは、時間軸及び文字数軸を含む表示範囲上に、前記所定時間ごとの前記複数の話者のそれぞれの音声に対応した前記文字数をプロットした折れ線グラフであることを特徴とする、付記1〜5のいずれか1項記載の音声分析プログラム。
(Appendix 6)
The graph showing the number of characters is a line graph in which the number of characters corresponding to each voice of the plurality of speakers at the predetermined time is plotted on a display range including a time axis and a character number axis. The speech analysis program according to any one of appendices 1 to 5.
(付記7)
前記複数の話者のそれぞれは、複数の第1分類グループのうちのいずれかに属するとともに、複数の第2分類グループのうちのいずれかに属し、前記複数の第1分類グループのそれぞれには、互いに異なる第2分類グループに属する話者が含まれ、
前記文字数を示すグラフは、同一の第1分類グループに属する複数の話者を対象として生成されるグラフである
ことを特徴とする、付記1〜6のいずれか1項記載の音声分析プログラム。
(Appendix 7)
Each of the plurality of speakers belongs to any one of the plurality of first classification groups and belongs to any one of the plurality of second classification groups, and each of the plurality of first classification groups includes: Includes speakers belonging to different second classification groups,
7. The voice analysis program according to any one of appendices 1 to 6, wherein the graph showing the number of characters is a graph generated for a plurality of speakers belonging to the same first classification group.
(付記8)
前記文字数を示すグラフを、同一の第2分類グループに属する複数の話者を対象として生成されるグラフに切り替える制御を行なう処理を前記コンピュータに実行させることを特徴とする、付記7記載の音声分析プログラム。
(Appendix 8)
8. The speech analysis according to appendix 7, characterized in that the computer is caused to execute a process of controlling switching the graph showing the number of characters to a graph generated for a plurality of speakers belonging to the same second classification group. program.
(付記9)
前記文字数を示すグラフは、時間軸及び文字数軸を含む表示範囲上に、前記所定時間ごとの前記複数の話者のそれぞれの音声に対応した前記文字数の累積値を示す棒グラフであることを特徴とする、付記1〜5のいずれか1項記載の音声分析プログラム。
(Appendix 9)
The graph showing the number of characters is a bar graph showing a cumulative value of the number of characters corresponding to each voice of the plurality of speakers at the predetermined time on a display range including a time axis and a character number axis. The voice analysis program according to any one of appendices 1 to 5.
(付記10)
前記文字数を示すグラフを、時間軸及び文字数軸を含む表示範囲上に、前記所定時間ごとの前記複数の話者のそれぞれの音声に対応した前記文字数をプロットした折れ線グラフと、前記表示範囲上に、前記所定時間ごとの前記複数の話者のそれぞれの音声に対応した前記文字数の累積値を示す棒グラフと、の間で切り替える制御を行なう処理を前記コンピュータに実行させることを特徴とする、付記1〜9のいずれか1項記載の音声分析プログラム。
(Appendix 10)
A graph showing the number of characters, on a display range including a time axis and a number of characters axis, a line graph plotting the number of characters corresponding to each voice of the plurality of speakers at the predetermined time, and on the display range. Note that the computer is caused to execute a process of controlling to switch between a bar graph showing the cumulative value of the number of characters corresponding to each voice of the plurality of speakers at the predetermined time. 10. The voice analysis program according to any one of items 9 to 9.
(付記11)
複数の話者のそれぞれの音声を受け付ける受付部と、
受け付けた前記複数の話者のそれぞれの音声を音声認識によりテキスト化するテキスト化部と、
所定時間ごとの前記複数の話者のそれぞれの音声に対応するテキストの文字数を特定する特定部と、
前記所定時間ごとに、前記複数の話者のそれぞれの音声に対応した前記文字数を示すグラフを出力する出力部と、をそなえる
ことを特徴とする、音声分析装置。
(Appendix 11)
A reception unit that receives each voice of a plurality of speakers,
A text-forming unit that converts each voice of the plurality of accepted speakers into text by voice recognition,
A specifying unit that specifies the number of characters of the text corresponding to each voice of the plurality of speakers for each predetermined time,
A voice analysis device, comprising: an output unit that outputs a graph showing the number of characters corresponding to each voice of the plurality of speakers at each predetermined time.
(付記12)
前記出力部は、前記文字数を示すグラフとともに、前記複数の話者のそれぞれに対応する付加情報を出力することを特徴とする、付記11記載の音声分析装置。
(Appendix 12)
12. The voice analysis device according to
(付記13)
前記付加情報は、前記複数の話者のそれぞれの音声に対応するテキストであることを特徴とする、付記12記載の音声分析装置。
(Appendix 13)
13. The voice analysis device according to
(付記14)
前記文字数を示すグラフに対して表示範囲の時間スケールの変更を制御する制御部、をそなえることを特徴とする、付記11〜13のいずれか1項記載の音声分析装置。
(Appendix 14)
14. The voice analysis device according to any one of
(付記15)
前記制御部は、前記所定時間の長さを変更し、
前記特定部は、変更後の所定時間ごとの前記複数の話者のそれぞれの音声に対応するテキストの文字数を特定し、
前記出力部は、前記変更後の所定時間ごとに、前記複数の話者のそれぞれの音声に対応した前記文字数を示すグラフを出力する、
ことを特徴とする、付記11〜14のいずれか1項記載の音声分析装置。
(Appendix 15)
The control unit changes the length of the predetermined time,
The specifying unit specifies the number of characters of the text corresponding to each voice of the plurality of speakers for each predetermined time after the change,
The output unit outputs a graph showing the number of characters corresponding to each voice of the plurality of speakers at every predetermined time after the change,
15. The voice analysis device according to any one of
(付記16)
前記複数の話者のそれぞれは、複数の第1分類グループのうちのいずれかに属するとともに、複数の第2分類グループのうちのいずれかに属し、前記複数の第1分類グループのそれぞれには、互いに異なる第2分類グループに属する話者が含まれ、
前記文字数を示すグラフは、同一の第1分類グループに属する複数の話者を対象として生成されるグラフである
ことを特徴とする、付記11〜15のいずれか1項記載の音声分析装置。
(Appendix 16)
Each of the plurality of speakers belongs to any one of the plurality of first classification groups and belongs to any one of the plurality of second classification groups, and each of the plurality of first classification groups includes: Includes speakers belonging to different second classification groups,
16. The voice analysis device according to any one of
(付記17)
前記制御部は、前記文字数を示すグラフを、同一の第2分類グループに属する複数の話者を対象として生成されるグラフに切り替える制御を行なうことを特徴とする、付記16記載の音声分析装置。
(Appendix 17)
17. The voice analysis device according to
(付記18)
前記制御部は、前記文字数を示すグラフを、時間軸及び文字数軸を含む表示範囲上に、前記所定時間ごとの前記複数の話者のそれぞれの音声に対応した前記文字数をプロットした折れ線グラフと、前記表示範囲上に、前記所定時間ごとの前記複数の話者のそれぞれの音声に対応した前記文字数の累積値を示す棒グラフと、の間で切り替える制御を行なうことを特徴とする、付記11〜17のいずれか1項記載の音声分析装置。
(Appendix 18)
The control unit, a graph showing the number of characters, on a display range including a time axis and a number of characters axis, a line graph plotting the number of characters corresponding to each voice of the plurality of speakers for each predetermined time,
(付記19)
コンピュータのプロセッサが、複数の話者のそれぞれの音声を受け付け、
前記プロセッサが、受け付けた前記複数の話者のそれぞれの音声を音声認識によりテキスト化し、
前記プロセッサが、所定時間ごとの前記複数の話者のそれぞれの音声に対応するテキストの文字数を特定し、
前記プロセッサが、前記所定時間ごとに、前記複数の話者のそれぞれの音声に対応した前記文字数を示すグラフを出力する、
ことを特徴とする、音声分析方法。
(Appendix 19)
The processor of the computer accepts each voice of multiple speakers,
The processor converts each voice of the plurality of accepted speakers into text by voice recognition,
The processor identifies the number of characters of the text corresponding to each voice of the plurality of speakers for each predetermined time,
The processor outputs a graph showing the number of characters corresponding to each voice of the plurality of speakers at the predetermined time intervals,
A voice analysis method characterized by the above.
(付記20)
前記プロセッサが、前記文字数を示すグラフとともに、前記複数の話者のそれぞれに対応する付加情報を出力することを特徴とする、付記19記載の音声分析方法。
(Appendix 20)
20. The voice analysis method according to appendix 19, wherein the processor outputs additional information corresponding to each of the plurality of speakers together with the graph showing the number of characters.
1 音声分析システム
10 コンピュータ
11、31 集音装置
12 音声変換部
121 音声取得部
122 テキスト変換部
13 グラフ出力部
131 グラフ生成部
132 制御部
14 発話データベース
15 表示装置
20 ネットワーク
30 端末
150、150A、150B 表示領域
160、160A、160B グラフ領域
162 ズームボタン
164 マウスカーソル
166 テキスト領域
167、168、169 ポップアップ
170 スケール変更領域
172 プレビュー領域
174 調整部
176 スライダ
180 操作領域
190 条件指定画面
192 表示グループ選択領域
194 表示方法選択領域
196 グラフ出力ボタン
1
Claims (11)
受け付けた前記複数の話者のそれぞれの音声を音声認識によりテキスト化し、
所定時間ごとの前記複数の話者のそれぞれの音声に対応するテキストの文字数を特定し、
前記所定時間ごとに、前記複数の話者のそれぞれの音声に対応した前記文字数を示すグラフを出力する、
処理をコンピュータに実行させ、
前記複数の話者のそれぞれは、複数の第1分類グループのうちのいずれかに属するとともに、複数の第2分類グループのうちのいずれかに属し、前記複数の第1分類グループのそれぞれには、互いに異なる第2分類グループに属する話者が含まれ、
前記文字数を示すグラフは、同一の第1分類グループに属する複数の話者を対象として生成されるグラフであり、
前記文字数を示すグラフを、同一の第2分類グループに属する複数の話者を対象として生成されるグラフに切り替える制御を行なう、
処理を前記コンピュータに実行させることを特徴とする、音声分析プログラム。 Accept each voice of multiple speakers,
Each voice of the plurality of accepted speakers is converted into text by voice recognition,
Specify the number of characters of the text corresponding to each voice of the plurality of speakers for each predetermined time,
Outputting a graph showing the number of characters corresponding to each voice of the plurality of speakers at the predetermined time intervals,
Let the computer do the processing ,
Each of the plurality of speakers belongs to any one of the plurality of first classification groups and belongs to any one of the plurality of second classification groups, and each of the plurality of first classification groups includes: Includes speakers belonging to different second classification groups,
The graph showing the number of characters is a graph generated for a plurality of speakers belonging to the same first classification group,
Control is performed to switch the graph showing the number of characters to a graph generated for a plurality of speakers belonging to the same second classification group.
It characterized Rukoto to execute the process to the computer, voice analysis program.
変更後の所定時間ごとの前記複数の話者のそれぞれの音声に対応するテキストの文字数を特定し、
前記変更後の所定時間ごとに、前記複数の話者のそれぞれの音声に対応した前記文字数を示すグラフを出力する、
処理を前記コンピュータに実行させることを特徴とする、請求項1〜4のいずれか1項記載の音声分析プログラム。 Change the length of the predetermined time,
Specify the number of characters of the text corresponding to each voice of the plurality of speakers for each predetermined time after the change,
Outputting a graph showing the number of characters corresponding to each voice of the plurality of speakers for each predetermined time after the change,
Characterized in that to execute the process to the computer, any one voice analysis program according to claims 1-4.
受け付けた前記複数の話者のそれぞれの音声を音声認識によりテキスト化するテキスト化部と、
所定時間ごとの前記複数の話者のそれぞれの音声に対応するテキストの文字数を特定する特定部と、
前記所定時間ごとに、前記複数の話者のそれぞれの音声に対応した前記文字数を示すグラフを出力する出力部と、をそなえ、
前記複数の話者のそれぞれは、複数の第1分類グループのうちのいずれかに属するとともに、複数の第2分類グループのうちのいずれかに属し、前記複数の第1分類グループのそれぞれには、互いに異なる第2分類グループに属する話者が含まれ、
前記文字数を示すグラフは、同一の第1分類グループに属する複数の話者を対象として生成されるグラフであり、
前記文字数を示すグラフを、同一の第2分類グループに属する複数の話者を対象として生成されるグラフに切り替える制御を行なう制御部、をそなえる
ことを特徴とする、音声分析装置。 A reception unit that receives each voice of a plurality of speakers,
A text-forming unit that converts each voice of the plurality of accepted speakers into text by voice recognition,
A specifying unit that specifies the number of characters of the text corresponding to each voice of the plurality of speakers for each predetermined time,
An output unit that outputs a graph showing the number of characters corresponding to each voice of the plurality of speakers at each of the predetermined times ,
Each of the plurality of speakers belongs to any one of the plurality of first classification groups and belongs to any one of the plurality of second classification groups, and each of the plurality of first classification groups includes: Includes speakers belonging to different second classification groups,
The graph showing the number of characters is a graph generated for a plurality of speakers belonging to the same first classification group,
The graph showing the number of characters, the control section performs control for switching the graphs generated a plurality of speakers which belong to the same second classification group as a target, characterized by Rukoto includes a voice analyzer.
前記プロセッサが、受け付けた前記複数の話者のそれぞれの音声を音声認識によりテキスト化し、
前記プロセッサが、所定時間ごとの前記複数の話者のそれぞれの音声に対応するテキストの文字数を特定し、
前記プロセッサが、前記所定時間ごとに、前記複数の話者のそれぞれの音声に対応した前記文字数を示すグラフを出力し、
前記複数の話者のそれぞれは、複数の第1分類グループのうちのいずれかに属するとともに、複数の第2分類グループのうちのいずれかに属し、前記複数の第1分類グループのそれぞれには、互いに異なる第2分類グループに属する話者が含まれ、
前記文字数を示すグラフは、同一の第1分類グループに属する複数の話者を対象として生成されるグラフであり、
前記プロセッサが、前記文字数を示すグラフを、同一の第2分類グループに属する複数の話者を対象として生成されるグラフに切り替える制御を行なう、
ことを特徴とする、音声分析方法。 The processor of the computer accepts each voice of multiple speakers,
The processor converts each voice of the plurality of accepted speakers into text by voice recognition,
The processor identifies the number of characters of the text corresponding to each voice of the plurality of speakers for each predetermined time,
The processor outputs a graph showing the number of characters corresponding to each voice of the plurality of speakers at the predetermined time intervals ,
Each of the plurality of speakers belongs to any one of the plurality of first classification groups and belongs to any one of the plurality of second classification groups, and each of the plurality of first classification groups includes: Includes speakers belonging to different second classification groups,
The graph showing the number of characters is a graph generated for a plurality of speakers belonging to the same first classification group,
The processor controls to switch the graph showing the number of characters to a graph generated for a plurality of speakers belonging to the same second classification group .
A voice analysis method characterized by the above.
受け付けた前記複数の話者のそれぞれの音声を音声認識によりテキスト化し、 Each voice of the plurality of accepted speakers is converted into text by voice recognition,
所定時間ごとの前記複数の話者のそれぞれの音声に対応するテキストの文字数を特定し、 Specify the number of characters of the text corresponding to each voice of the plurality of speakers for each predetermined time,
前記所定時間ごとに、前記複数の話者のそれぞれの音声に対応した前記文字数を示すグラフを出力し、 For each predetermined time, output a graph showing the number of characters corresponding to each voice of the plurality of speakers,
前記文字数を示すグラフを、時間軸及び文字数軸を含む表示範囲上に、前記所定時間ごとの前記複数の話者のそれぞれの音声に対応した前記文字数をプロットした折れ線グラフと、前記表示範囲上に、前記所定時間ごとの前記複数の話者のそれぞれの音声に対応した前記文字数の累積値を示す棒グラフと、の間で切り替える制御を行なう、 A graph showing the number of characters, on a display range including a time axis and a number of characters axis, a line graph plotting the number of characters corresponding to each voice of the plurality of speakers at the predetermined time, and on the display range. , A bar graph showing a cumulative value of the number of characters corresponding to each voice of the plurality of speakers for each predetermined time, and switching control is performed.
処理をコンピュータに実行させることを特徴とする、音声分析プログラム。A speech analysis program characterized by causing a computer to execute processing.
受け付けた前記複数の話者のそれぞれの音声を音声認識によりテキスト化するテキスト化部と、 A text-forming unit for converting the received voices of the plurality of speakers into text by voice recognition,
所定時間ごとの前記複数の話者のそれぞれの音声に対応するテキストの文字数を特定する特定部と、 A specifying unit that specifies the number of characters of the text corresponding to each voice of the plurality of speakers for each predetermined time,
前記所定時間ごとに、前記複数の話者のそれぞれの音声に対応した前記文字数を示すグラフを出力する出力部と、 An output unit that outputs a graph showing the number of characters corresponding to each voice of the plurality of speakers at the predetermined time intervals,
前記文字数を示すグラフを、時間軸及び文字数軸を含む表示範囲上に、前記所定時間ごとの前記複数の話者のそれぞれの音声に対応した前記文字数をプロットした折れ線グラフと、前記表示範囲上に、前記所定時間ごとの前記複数の話者のそれぞれの音声に対応した前記文字数の累積値を示す棒グラフと、の間で切り替える制御を行なう制御部と、をそなえる A graph showing the number of characters, on a display range including a time axis and a number of characters axis, a line graph plotting the number of characters corresponding to each voice of the plurality of speakers at the predetermined time, and on the display range. , A bar graph showing a cumulative value of the number of characters corresponding to each voice of the plurality of speakers at the predetermined time, and a control unit for performing control for switching between the bar graph.
ことを特徴とする、音声分析装置。A voice analysis device characterized by the above.
前記プロセッサが、受け付けた前記複数の話者のそれぞれの音声を音声認識によりテキスト化し、 The processor converts each voice of the plurality of accepted speakers into text by voice recognition,
前記プロセッサが、所定時間ごとの前記複数の話者のそれぞれの音声に対応するテキストの文字数を特定し、 The processor identifies the number of characters of the text corresponding to each voice of the plurality of speakers for each predetermined time,
前記プロセッサが、前記所定時間ごとに、前記複数の話者のそれぞれの音声に対応した前記文字数を示すグラフを出力し、 The processor outputs a graph showing the number of characters corresponding to each voice of the plurality of speakers at the predetermined time intervals,
前記プロセッサが、前記文字数を示すグラフを、時間軸及び文字数軸を含む表示範囲上に、前記所定時間ごとの前記複数の話者のそれぞれの音声に対応した前記文字数をプロットした折れ線グラフと、前記表示範囲上に、前記所定時間ごとの前記複数の話者のそれぞれの音声に対応した前記文字数の累積値を示す棒グラフと、の間で切り替える制御を行なう、 The processor, a graph showing the number of characters, a line graph in which the number of characters corresponding to each voice of the plurality of speakers at the predetermined time is plotted on a display range including a time axis and a number of characters axis, On the display range, control is performed to switch between a bar graph showing the cumulative value of the number of characters corresponding to each voice of the plurality of speakers for each predetermined time,
ことを特徴とする、音声分析方法。A voice analysis method characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016184176A JP6733452B2 (en) | 2016-09-21 | 2016-09-21 | Speech analysis program, speech analysis device, and speech analysis method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016184176A JP6733452B2 (en) | 2016-09-21 | 2016-09-21 | Speech analysis program, speech analysis device, and speech analysis method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018049140A JP2018049140A (en) | 2018-03-29 |
JP6733452B2 true JP6733452B2 (en) | 2020-07-29 |
Family
ID=61766293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016184176A Active JP6733452B2 (en) | 2016-09-21 | 2016-09-21 | Speech analysis program, speech analysis device, and speech analysis method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6733452B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6847989B2 (en) * | 2019-02-07 | 2021-03-24 | 株式会社メルカリ | Information processing programs, information processing terminals, information processing methods, and information processing devices |
JP6594577B1 (en) * | 2019-03-27 | 2019-10-23 | 株式会社博報堂Dyホールディングス | Evaluation system, evaluation method, and computer program. |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006251042A (en) * | 2005-03-08 | 2006-09-21 | Fuji Xerox Co Ltd | Information processor, information processing method and program |
JP2006268089A (en) * | 2005-03-22 | 2006-10-05 | Fuji Xerox Co Ltd | Information processor, information processing method, and program |
JP2007257284A (en) * | 2006-03-23 | 2007-10-04 | Asahi Kasei Homes Kk | Living energy reduction support system |
JP2007288539A (en) * | 2006-04-17 | 2007-11-01 | Fuji Xerox Co Ltd | Conference system and method therefor |
JP5685702B2 (en) * | 2009-11-10 | 2015-03-18 | 株式会社アドバンスト・メディア | Speech recognition result management apparatus and speech recognition result display method |
-
2016
- 2016-09-21 JP JP2016184176A patent/JP6733452B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018049140A (en) | 2018-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Comparing acoustic analyses of speech data collected remotely | |
JP5685702B2 (en) | Speech recognition result management apparatus and speech recognition result display method | |
US10586528B2 (en) | Domain-specific speech recognizers in a digital medium environment | |
US11074928B2 (en) | Conversational analytics | |
US20190147760A1 (en) | Cognitive content customization | |
JP2017016566A (en) | Information processing device, information processing method and program | |
US11881209B2 (en) | Electronic device and control method | |
James et al. | Automated classification of classroom climate by audio analysis | |
US20230154457A1 (en) | Communication System And Related Methods | |
JP2014206896A (en) | Information processing apparatus, and program | |
JP6733452B2 (en) | Speech analysis program, speech analysis device, and speech analysis method | |
CN104424955A (en) | Audio graphical expression generation method and equipment, and audio searching method and equipment | |
JP2014123813A (en) | Automatic scoring device for dialog between operator and customer, and operation method for the same | |
US20200234727A1 (en) | Systems and methods for pre-filtering audio content based on prominence of frequency content | |
Sarkar et al. | A support for protocol analysis for design research | |
KR102226427B1 (en) | Apparatus for determining title of user, system including the same, terminal and method for the same | |
CN111914115A (en) | Sound information processing method and device and electronic equipment | |
KR20200082232A (en) | Apparatus for analysis of emotion between users, interactive agent system using the same, terminal apparatus for analysis of emotion between users and method of the same | |
KR102272567B1 (en) | Speech recognition correction system | |
Li et al. | Design of automatic scoring system for oral English test based on sequence matching and big data analysis | |
Viswanathan et al. | Collaboration detection that preserves privacy of students’ speech | |
JPWO2020116001A1 (en) | Information processing device and information processing method | |
KR20210067426A (en) | Voice diary device | |
JP7452299B2 (en) | Conversation support system, conversation support method and program | |
JP7166370B2 (en) | Methods, systems, and computer readable recording media for improving speech recognition rates for audio recordings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20161011 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190607 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190611 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200317 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200514 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200609 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200622 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6733452 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |