JP7259307B2 - 議事録出力装置および議事録出力装置の制御プログラム - Google Patents

議事録出力装置および議事録出力装置の制御プログラム Download PDF

Info

Publication number
JP7259307B2
JP7259307B2 JP2018234375A JP2018234375A JP7259307B2 JP 7259307 B2 JP7259307 B2 JP 7259307B2 JP 2018234375 A JP2018234375 A JP 2018234375A JP 2018234375 A JP2018234375 A JP 2018234375A JP 7259307 B2 JP7259307 B2 JP 7259307B2
Authority
JP
Japan
Prior art keywords
speaker
unit
minutes
participants
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018234375A
Other languages
English (en)
Other versions
JP2020095210A (ja
Inventor
美沙紀 船渡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2018234375A priority Critical patent/JP7259307B2/ja
Priority to US16/687,780 priority patent/US20200194003A1/en
Publication of JP2020095210A publication Critical patent/JP2020095210A/ja
Application granted granted Critical
Publication of JP7259307B2 publication Critical patent/JP7259307B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/401Support for services or applications wherein the services involve a main real-time session and one or more additional parallel real-time or time sensitive sessions, e.g. white board sharing or spawning of a subconference
    • H04L65/4015Support for services or applications wherein the services involve a main real-time session and one or more additional parallel real-time or time sensitive sessions, e.g. white board sharing or spawning of a subconference where at least one of the additional parallel sessions is real time or time sensitive, e.g. white board sharing, collaboration or spawning of a subconference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • H04L65/4053Arrangements for multi-party communication, e.g. for conferences without floor control

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、議事録出力装置および議事録出力装置の制御プログラムに関する。
従来から、音声データに基づいて、話者を判別する種々の技術が知られている。例えば特許文献1には、音声データをセグメント化し、各セグメントが話者のモデルに属しているか否かを判別することによって、話者を判別する技術が開示されている。
特開2009-109712号公報
しかし、特許文献1に開示された技術は、複数人が参加する会議に特化して用いられるものではないため、複数人が参加する会議における発言者を判別する精度を向上させられないという問題がある。また、複数人が参加する会議について、各発言者の発言の内容をテキスト化して、議事録を出力する必要が生じる場合があるが、特許文献1に開示された技術は、このような議事録を出力するものではない。
本発明は、上述した課題に鑑みてなされたものである。したがって、本発明の目的は、会議における発言者が高い精度で判別された議事録を出力する議事録出力装置および議事録出力装置の制御プログラムを提供することである。
本発明の上記の目的は、下記の手段によって達成される。
(1)会議における参加人数に関する情報を取得する情報取得部と、前記会議における音声に関するデータを取得する音声取得部と、前記音声取得部によって取得された前記音声に関するデータに基づいて、前記音声を認識し、発言者の発言としてテキスト化する音声認識部と、前記情報取得部によって取得された前記参加人数に関する情報と、前記音声取得部によって取得された前記音声に関するデータとに基づいて、前記発言者を判別する判別部と、前記判別部によって判別された前記発言者を示すラベルと、前記音声認識部によってテキスト化された前記発言の内容とを関連付けた議事録を、出力部に出力させる出力制御部と、を有する議事録出力装置。
(2)前記判別部は、前記参加人数に関する情報に基づいて、前記発言者の人数が前記参加人数を超えないように、前記発言者を判別する上記(1)に記載の議事録出力装置。
(3)前記判別部は、前記音声に関するデータに基づいて、前記音声の特徴量を算出し、算出した前記音声の特徴量に基づいて、前記発言者を判別する上記(1)または(2)に記載の議事録出力装置。
(4)前記判別部は、前記音声の特徴量をクラスターとして分類し、前記クラスター間の類似度に基づいて、前記参加人数を超えないような前記クラスターの数を決定する上記(3)に記載の議事録出力装置。
(5)前記判別部は、前記類似度を算出し、前記類似度が高い順に前記クラスターを併合し、最も低い前記類似度に応じて前記クラスターが併合される前に存在していた前記クラスターの数を、前記発言者の人数として決定する上記(4)に記載の議事録出力装置。
(6)前記判別部は、同じ前記クラスターに併合された前記音声の特徴量を、同じ前記発言者の前記音声の特徴量として判別する上記(4)または(5)に記載の議事録出力装置。
(7)前記判別部は、前記発言者の判別結果に基づいて、前記発言者が変化したか否かを判断し、前記発言者が変化したと判断する場合、変化後の前記発言者が前記会議において過去に発言していたか否かをさらに判断し、前記出力制御部は、前記判別部によって、変化後の前記発言者が過去に発言していなかったと判断された場合、新たな前記発言者を示す前記ラベルを前記出力部に出力させ、前記判別部によって、変化後の前記発言者が過去に発言していたと判断された場合、対応する過去の前記発言者を示す前記ラベルを前記出力部に出力させる上記(1)~(6)のいずれか一つに記載の議事録出力装置。
(8)前記判別部は、所定の時間毎または所定の発言数毎に、前記発言者を判別する上記(1)~(7)のいずれか一つに記載の議事録出力装置。
(9)前記情報取得部は、入力された前記参加人数に関する情報を取得する上記(1)~(8)のいずれか一つに記載の議事録出力装置。
(10)前記情報取得部は、前記会議における参加者によって所有される携帯端末から送信された通知に基づいて、前記参加人数に関する情報を取得する上記(1)~(8)のいずれか一つに記載の議事録出力装置。
(11)前記情報取得部は、記憶部に記憶されている過去の議事録のデータを確認し、前記参加人数に関する情報として、過去の議事録によって示される過去の前記会議における前記参加人数に関する情報を取得する上記(1)~(8)のいずれか一つに記載の議事録出力装置。
(12)前記情報取得部は、前記会議における参加者の点呼の状況に基づいて、前記参加人数に関する情報を取得する上記(1)~(8)のいずれか一つに記載の議事録出力装置。
(13)前記情報取得部は、前記会議が開始された後において前記参加人数が変化した場合、変化後の前記参加人数に関する情報をさらに取得し、前記判別部は、前記情報取得部によって取得された変化後の前記参加人数に関する情報に基づいて、以降の前記発言者を判別する上記(1)~(12)のいずれか一つに記載の議事録出力装置。
(14)前記情報取得部は、誤った前記ラベルが前記発言の内容に関連付けられた場合、前記ラベルの訂正に関する情報をさらに取得し、前記出力制御部は、前記情報取得部によって取得された前記ラベルの訂正に関する情報に基づいて、誤った前記ラベルを訂正し、訂正した前記ラベルを前記出力部に出力させる上記(1)~(13)のいずれか一つに記載の議事録出力装置。
(15)前記情報取得部は、前記ラベルに対応する前記発言者の名前に関する情報を取得し、前記出力制御部は、前記ラベルを前記発言者の名前に置き換えて、前記出力部に出力させる上記(1)~(14)のいずれか一つに記載の議事録出力装置。
(16)前記出力制御部は、前記議事録において同一の前記ラベルが複数含まれる場合、全ての同一の前記ラベルを同一の前記発言者の名前に置き換えて、前記出力部に出力させる上記(15)に記載の議事録出力装置。
(17)議事録を出力する議事録出力装置の制御プログラムであって、会議における参加人数に関する情報を取得する情報取得ステップと、前記会議における音声に関するデータを取得する音声取得ステップと、前記音声取得ステップにおいて取得された前記音声に関するデータに基づいて、前記音声を認識し、発言者の発言としてテキスト化する音声認識ステップと、前記情報取得ステップにおいて取得された前記参加人数に関する情報と、前記音声取得ステップにおいて取得された前記音声に関するデータとに基づいて、前記発言者を判別する判別ステップと、前記判別ステップにおいて判別された前記発言者を示すラベルと、前記音声認識ステップにおいてテキスト化された前記発言の内容とを関連付けた議事録を、出力部に出力させる出力ステップと、を含む処理をコンピューターに実行させるための制御プログラム。
(18)前記判別ステップは、前記参加人数に関する情報に基づいて、前記発言者の人数が前記参加人数を超えないように、前記発言者を判別する上記(17)に記載の制御プログラム。
(19)前記判別ステップは、前記音声に関するデータに基づいて、前記音声の特徴量を算出し、算出した前記音声の特徴量に基づいて、前記発言者を判別する上記(17)または(18)に記載の制御プログラム。
(20)前記判別ステップは、前記音声の特徴量をクラスターとして分類し、前記クラスター間の類似度に基づいて、前記参加人数を超えないような前記クラスターの数を決定する上記(19)に記載の制御プログラム。
(21)前記判別ステップは、前記類似度を算出し、前記類似度が高い順に前記クラスターを併合し、最も低い前記類似度に応じて前記クラスターが併合される前に存在していた前記クラスターの数を、前記発言者の人数として決定する上記(20)に記載の制御プログラム。
(22)前記判別ステップは、同じ前記クラスターに併合された前記音声の特徴量を、同じ前記発言者の前記音声の特徴量として判別する上記(20)または(21)に記載の制御プログラム。
本発明の一実施形態に係る議事録出力装置によれば、会議における参加人数に関する情報と、音声に関するデータとに基づいて、会議における発言者を判別し、議事録を出力する。議事録出力装置は、参加人数に応じて発言者を判別するため、発言者を高い精度で判別できる。これにより、議事録出力装置は、会議における発言者が高い精度で判別された議事録を出力できる。
本発明の一実施形態に係るユーザー端末の概略構成を示すブロック図である。 制御部の機能構成を示すブロック図である。 ユーザー端末の処理の手順を示すフローチャートである。 ユーザー端末の処理の手順を示すフローチャートである。 ユーザー端末に表示される画面の一例を示す図である。 ユーザー端末に表示される画面の一例を示す図である。 ユーザー端末に表示される画面の一例を示す図である。 ユーザー端末に表示される画面の一例を示す図である。 ユーザー端末に表示される画面の一例を示す図である。 ユーザー端末に表示される画面の一例を示す図である。 ユーザー端末に表示される画面の一例を示す図である。 ユーザー端末に表示される画面の一例を示す図である。 ユーザー端末に表示される画面の一例を示す図である。 図3AのステップS107の発言者判別処理の手順を示すサブルーチンフローチャートである。 音声の周波数スペクトルの一例を示す図である。 音声の周波数スペクトルの一例を示す図である。 音声の特徴量のクラスタリングの一例を示す図である。 音声の特徴量のクラスタリングの一例を示す図である。 音声の特徴量のクラスタリングの一例を示す図である。 ユーザー端末に表示される画面の一例を示す図である。 ユーザー端末に表示される画面の一例を示す図である。 ユーザー端末に表示される画面の一例を示す図である。 議事録出力システムの全体構成を示す図である。
以下、添付した図面を参照して、本発明の実施形態について説明する。なお、図面の説明において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張され、実際の比率とは異なる場合がある。
まず、本発明の一実施形態に係る、議事録出力(作成)装置としてのユーザー端末について説明する。
図1は、本発明の一実施形態に係るユーザー端末の概略構成を示すブロック図である。
図1に示すように、ユーザー端末10は、制御部11、記憶部12、通信部13、表示部14、操作受付部15および音入力部16を備える。各構成要素は、バスを介して相互に通信可能に接続されている。ユーザー端末10は、例えば、ノート型またはデスクトップ型のPC端末や、タブレット端末、スマートフォン、携帯電話等である。
制御部11は、CPU(Central Processing Unit)を備え、プログラムに従い、上述した各構成要素の制御や各種の演算処理を実行する。制御部11の機能構成については、図2を参照して後述する。
記憶部12は、予め各種プログラムや各種データを記憶するROM(Read Only Memory)、作業領域として一時的にプログラムやデータを記憶するRAM(Random Access Memory)、各種プログラムや各種データを記憶するハードディスク等を備える。
通信部13は、他の端末や装置等と通信するためのインターフェースを備える。
出力部としての表示部14は、LCD(液晶ディスプレイ)や有機ELディスプレイ等を備え、各種情報を表示(出力)する。
操作受付部15は、キーボードや、マウス等のポインティングデバイス、タッチセンサー等を備え、ユーザーの各種操作を受け付ける。操作受付部15は、例えば、表示部14に表示された画面に対するユーザーの入力操作を受け付ける。
音入力部16は、マイクロホン等を備え、外部の音声等の音の入力を受け付ける。なお、音入力部16は、マイクロホン自体を備えなくてもよく、外部のマイクロホン等を介して音の入力を受け付けるための、入力回路を備えてもよい。
なお、ユーザー端末10は、上述した構成要素以外の構成要素を備えてもよいし、上述した構成要素のうちの一部の構成要素を備えなくてもよい。
続いて、制御部11の機能構成について説明する。
図2は、制御部の機能構成を示すブロック図である。
制御部11は、プログラムを読み込んで処理を実行することによって、図2に示すように、情報取得部111、音声取得部112、音声認識部113、表示制御部114および判別部115として機能する。情報取得部111は、各種情報を取得する。音声取得部112は、音声データを取得する。音声認識部113は、周知の音声認識技術を用いて、音声データに基づいて音声を認識し、認識した音声をテキスト化する。出力制御部としての表示制御部114は、表示部14を制御して、各種画面を表示部14に表示させる。判別部115は、音声データに基づいて発言者を判別する。
続いて、ユーザー端末10における処理の流れについて説明する。ユーザー端末10の処理は、会議における発言者が高い精度で判別された議事録を出力するように制御するものである。
図3Aおよび図3Bは、ユーザー端末の処理の手順を示すフローチャートである。図4A~図4Iは、ユーザー端末に表示される画面の一例を示す図である。図3Aおよび図3Bに示す処理のアルゴリズムは、記憶部12にプログラムとして記憶されており、制御部11によって実行される。
図3Aに示すように、まず、制御部11は、会議が開始される前に、情報取得部111として、会議における参加人数に関する情報を取得する(ステップS101)。より具体的には、制御部11は、例えば図4Aに示すような参加人数の入力画面を、表示部14に予め表示させる。そして、当該入力画面に対して参加人数を入力するユーザーの操作を、操作受付部15が受け付けた場合、制御部11は、ユーザーによって入力された参加人数に関する情報を取得する。
続いて、制御部11は、ステップS101において取得された参加人数に関する情報に基づいて、参加人数分のラベルを準備する(ステップS102)。そして、制御部11は、音声取得部112として、開始された会議における音声に関するデータを取得する処理を開始する(ステップS103)。制御部11は、例えば、音入力部16において入力された音声に関するデータを取得する。さらに、制御部11は、音声認識部113として、ステップS103において取得が開始された音声に関するデータに基づいて、音声を認識し、発言者の発言としてテキスト化する処理を開始する(ステップS104)。
また、制御部11は、表示制御部114として、最初の発言者を示すラベルと、最初の発言を示す発言欄とを関連付けて、表示部14に表示させる(ステップS105)。ステップS105の処理は、ステップS103および/またはS104の処理の実行中に、並行して実行されてもよい。表示部14は、例えば図4Bに示すように、最初の発言者を示す「発言者1」というラベルと、最初の発言を示す発言欄としての吹き出しとを、関連付けて表示する。なお、制御部11は、例えば図4Bに示すように、ステップS101において取得された参加人数に関する情報に基づいて、現在の参加人数を表示部14にさらに表示させてもよい。
続いて、制御部11は、表示制御部114として、ステップS105において表示されたラベルおよび発言欄と、ステップS104においてテキスト化が開始された発言の内容とを関連付けて、表示部14に表示させる処理を開始する(ステップS106)。これにより、表示部14は、例えば図4Cに示すように、「発言者1」というラベルが関連付けられた発言欄としての吹き出しに、テキスト化された発言の内容を追加する。
続いて、制御部11は、判別部115として、発言者判別処理を実行する(ステップS107)。ステップS107の処理は、ステップS101において取得された参加人数に関する情報と、ステップS103において取得が開始された音声に関するデータとに基づいて、発言者を判別する処理である。ステップS107の処理の詳細については、図5を参照して後述する。
続いて、制御部11は、判別部115として、ステップS107の判別結果に基づいて、発言者が変化したか否かを判断する(ステップS108)。
発言者が変化していないと判断する場合(ステップS108:NO)、制御部11は、ステップS109の処理に進む。そして、制御部11は、表示制御部114として、ステップS106において開始された、発言の内容の表示処理を継続する(ステップS109)。
発言者が変化したと判断する場合(ステップS108:YES)、制御部11は、ステップS110の処理に進む。そして、制御部11は、表示制御部114として、変化前の発言者による発言の内容の表示処理を終了すると共に、変化後の発言者による新たな発言を示す発言欄を、表示部14に表示させる(ステップS110)。
続いて、制御部11は、判別部115として、ステップS108において判断された変化後の発言者が、会議において過去に発言していたか否かを判断する(ステップS111)。なお、制御部11が、ステップS111の処理を最初に実行する場合、ステップS111は、必ずNOになる。
変化後の発言者が過去に発言していなかったと判断する場合(ステップS111:NO)、制御部11は、ステップS112の処理に進む。そして、制御部11は、表示制御部114として、新たな発言者を示すラベルを、ステップS110において表示された発言欄に関連付けて、表示部14に表示させる(ステップS112)。表示部14は、例えば図4Eに示すように、新たな発言者を示す「発言者2」というラベルを、新たな発言を示す発言欄としての吹き出しに、関連付けて表示する。
変化後の発言者が過去に発言していたと判断する場合(ステップS111:YES)、制御部11は、ステップS113の処理に進む。そして、制御部11は、表示制御部114として、対応する過去の発言者を示すラベルを、ステップS110において表示された発言欄に関連付けて、表示部14に表示させる(ステップS113)。表示部14は、例えば図4Fに示すように、対応する過去の発言者を示す「発言者1」というラベルを、新たな発言を示す発言欄としての吹き出しに、関連付けて表示する。
続いて、制御部11は、表示制御部114として、ステップS110で表示された発言欄と、ステップS112またはS113で表示されたラベルと、テキスト化された発言の内容とを関連付けて、表示部14に表示させる処理を開始する(ステップS114)。これにより、表示部14は、新たな発言者、または過去の発言者を示すラベルが関連付けられた発言欄に、発言の内容を追加する。
続いて、図3Bに示すように、制御部11は、会議が終了したか否かを判断する(ステップS115)。より具体的には、制御部11は、例えば、会議の終了を示すソフトキー等を、表示部14に予め表示させる。そして、制御部11は、当該ソフトキーを押下するユーザーの操作を、操作受付部15が受け付けたか否かを判断することによって、会議が終了したか否かを判断する。
会議が終了していないと判断する場合(ステップS115:NO)、制御部11は、ステップS107の処理に戻る。そして、制御部11は、会議が終了したと判断するまで、ステップS107~S115の処理を繰り返す。
会議が終了したと判断する場合(ステップS115:YES)、制御部11は、ステップS116の処理に進む。このとき、制御部11は、ステップS103において開始された音声に関するデータの取得処理や、ステップS104において開始された音声のテキスト化処理を終了してもよい。この時点において、表示部14は、例えば図4Gに示すような、会議における発言者が高い精度で自動的に判別された議事録を出力できる。
続いて、制御部11は、表示制御部114として、ステップS105、S112およびS113において表示されたラベルに対応する、発言者の名前を入力するための入力画面を、表示部14に表示させる(ステップS116)。表示部14は、例えば図4Hに示すような、発言者の名前の入力画面を表示する。なお、表示部14は、図4Gに示すような議事録を表示しながら、図4Hに示すような発言者の名前の入力画面を表示してもよい。この場合、ユーザーは、議事録における発言の内容を確認しながら、入力すべき発言者の名前を検討できる。
続いて、制御部11は、情報取得部111として、ラベルに対応する発言者の名前に関する情報を取得したか否かを判断する(ステップS117)。より具体的には、ステップS116において表示された入力画面に対して発言者の名前を入力するユーザーの操作を、操作受付部15が受け付けた場合、制御部11は、ユーザーによって入力された発言者の名前に関する情報を取得する。
発言者の名前に関する情報を取得していないと判断する場合(ステップS117:NO)、制御部11は、発言者の名前に関する情報を取得するまで待機する。
発言者の名前に関する情報を取得したと判断する場合(ステップS117:YES)、制御部11は、ステップS118の処理に進む。そして、制御部11は、表示制御部114として、表示されているラベルを、ステップS117において取得された情報によって示される発言者の名前に置き換えて、表示部14に表示させる(ステップS118)。なお、議事録において同一のラベルが複数含まれる場合(すなわち、会議において同一の発言者が複数回発言した場合)、制御部11は、全ての同一のラベルを同一の発言者の名前に置き換えて、表示部14に表示させる。これにより、表示部14は、例えば図4Iに示すような、会議における発言者が高い精度で自動的に判別され、発言者の名前が明示された、最終的な議事録を出力できる。その後、制御部11は、処理を終了する。
なお、制御部11は、ステップS117において、発言者の名前に関する情報が取得されないまま所定のタイムアウト時間が経過した場合、処理を終了してもよい。この場合、表示部14は、図4Gに示すような議事録を、最終的な議事録として出力してもよい。
続いて、ステップS107の発言者判別処理の詳細について、説明する。上述したように、制御部11は、会議が終了したと判断するまで、ステップS107~S115の処理を繰り返す。このため、制御部11は、例えば所定の時間毎に、ステップS107の処理を実行することになる。
図5は、図3AのステップS107の発言者判別処理の手順を示すサブルーチンフローチャートである。図6Aおよび図6Bは、音声の周波数スペクトルの一例を示す図である。図7A~図7Cは、音声の特徴量のクラスタリングの一例を示す図である。
図5に示すように、まず、制御部11は、ステップS101において取得された参加人数に関する情報によって示される、参加人数を確認する(ステップS201)。そして、制御部11は、ステップS103において取得が開始された音声に関するデータに基づいて、当該音声の特徴量を算出する(ステップS202)。制御部11は、例えば、MFCC(メル周波数ケプストラム係数)やフォルマント周波数等を、音声の特徴量として算出する。あるいは、制御部11は、例えば図6Aおよび図6Bに示すような音声の周波数スペクトル(振幅スペクトル)PおよびPや、スペクトログラムに示された声紋等を、音声の特徴量として算出してもよい。図6Aおよび図6Bに示すグラフにおいて、横軸fは周波数を示し、縦軸Pは振幅を示す。なお、制御部11は、周波数スペクトルとして、位相スペクトルを算出してもよい。そして、制御部11は、ステップS202において算出された音声の特徴量を、記憶部12に記憶させる(ステップS203)。
続いて、制御部11は、記憶部12に記憶されている音声の特徴量の数が、1つであるか否かを判断する(ステップS204)。制御部11が、ステップS201~S204の処理を最初に実行する場合、ステップS204は必ずYESになる。
記憶されている音声の特徴量の数が1つであると判断する場合(ステップS204:YES)、制御部11は、後述するクラスタリング処理を実行するのに十分な数の、音声の特徴量が記憶されていないと判断する。この場合、制御部11は、発言者が変化していないと判断し(ステップS205)、図3Aの処理に戻る。
記憶されている音声の特徴量の数が1つでない、すなわち、2つ以上であると判断する場合(ステップS204:NO)、制御部11は、複数の音声の特徴量について、周知のクラスター分析を行い、音声の特徴量をクラスターとして分類し、例えば図7Aに示すようなデンドログラムを作成する。図7Aに例示するデンドログラムでは、横線の長さ(例えば、長さx)が、クラスターとしての音声の特徴量の間の差分の大きさを示し、横線が長いほど、差分が大きいことを示す。また、クラスター間の差分は、クラスター間の類似度と相関関係を有する指標である。より具体的には、クラスター間の差分および類似度は、クラスター間の差分が小さい場合、クラスター間の類似度が高いという相関関係を有する。クラスター間の差分は、例えば、クラスター間の類似度の逆数として定義される値であってもよい。
より具体的には、制御部11は、まず、記憶されている複数の音声の特徴量の各々を各クラスターとして、クラスター間の差分(距離)を算出する(ステップS206)。制御部11は、複数のクラスターの全てのペアについて、クラスター間の差分を算出する。制御部11は、例えば、ステップS202において、音声の特徴量としてMFCCを算出していた場合、クラスター間の差分として、MFCCの差分を算出する。あるいは、制御部11は、ステップS202において、音声の特徴量として音声の周波数スペクトルを算出していた場合、クラスター間の差分として、音声の周波数スペクトルの差分を算出してもよい。制御部11は、図6Aおよび図6Bに示すような音声の周波数スペクトルPおよびPを算出していた場合、音声の周波数スペクトルPおよびPの差分を、以下の式に基づいて算出してもよい。
Figure 0007259307000001
続いて、制御部11は、ステップS206において算出された差分を、記憶部12に記憶させる(ステップS207)。そして、制御部11は、デンドログラムのテンプレートを準備する(ステップS208)。
続いて、制御部11は、記憶された差分が最も小さい(すなわち、類似度が最も高い)クラスター同士を、新たなクラスターとして併合(クラスタリング)する(ステップS209)。そして、制御部11は、ステップS208において記憶されたデンドログラム上に、ステップS209において併合されたクラスターを表現することによって、デンドログラムを更新する(ステップS210)。例えば、図7Aに例示するデンドログラムが作成されるとき、記憶されている10個の音声の特徴量のうち、差分が最も小さいクラスターとしての音声の特徴量1および5が、新たなクラスターとして最初に併合され、当該デンドログラム上に表現される。
続いて、制御部11は、ステップS209におけるクラスターの併合後に残存するクラスターの数をカウントする(ステップS211)。そして、制御部11は、ステップS211においてカウントされたクラスターの数が、1つであるか否かを判断する(ステップS212)。例えば、ステップS209の前に4つのクラスターが存在していた場合、ステップS209において4つのうちの2つのクラスターが併合されるため、残存するクラスターの数は3つになる。
クラスターの数が1つでない、すなわち、2つ以上であると判断する場合(ステップS212:NO)、制御部11は、ステップS213の処理に進む。そして、制御部11は、ステップS209において併合されたクラスターと、併合されなかった他のクラスターとの間の差分を、さらに算出する(ステップS213)。制御部11は、例えば、併合されたクラスターに含まれる複数の音声の特徴量の代表値(重心)を算出し、クラスター間の差分として、代表値と1つの音声の特徴量との間の差分や、代表値同士の差分を算出してもよい。そして、制御部11は、ステップS211において算出された差分を、記憶部12にさらに記憶させる(ステップS214)。その後、制御部11は、ステップS209の処理に戻り、残存するクラスターの数が1つになるまで、ステップS209~S214の処理を繰り返す。すなわち、制御部11は、残存するクラスターの数が1つになるまで、クラスター間の差分が小さい(すなわち、類似度が高い)順に、クラスターを併合する処理を実行する。
クラスターの数が1つであると判断する場合(ステップS212:YES)、制御部11は、デンドログラムの所定の範囲における、クラスター間の差分の大きさ(すなわち、類似度の高さ)を比較する(ステップS215)。ここで、所定の範囲は、クラスターの数が2つ以上、かつ、ステップS201において確認された参加人数に対応する個数以下となる範囲である。例えば、参加人数が4人である場合、所定の範囲は、クラスターの数が2つ以上4つ以下になる範囲である。この場合、制御部11は、クラスターの数が2つ以上4つ以下になるように、クラスターがそれぞれ併合されたときの、クラスター間の差分の大きさを比較する。図7Bに示す例では、クラスターの数が2~4つになるように、クラスターがそれぞれ併合されたときの、クラスター間の差分d1、d2およびd3の大きさが比較される。
続いて、制御部11は、ステップS215において比較されたクラスター間の差分のうち、最も大きい差分(すなわち、最も低い類似度)に応じてクラスターが併合される直前に存在していたクラスターの数を、発言者の人数として決定する(ステップS216)。図7Bに示す例では、差分d1、d2およびd3のうち、最も大きい差分は差分d2であり、差分d2に応じてクラスターが併合される直前に存在していたクラスターの数は、3つであるため、発言者の人数は、3人であると決定される。すなわち、発言者の人数は、2人以上、かつ、参加人数を超えない範囲内で、クラスター間の差分の大きさに基づいて、決定される。
続いて、制御部11は、ステップS216において決定された発言者の人数に対応する数の、同じクラスターに併合された音声の特徴量を、同じ発言者の音声の特徴量として判別する(ステップS217)。そして、制御部11は、ステップS217における判別結果に基づいて発言者を判別し(ステップS218)、図3Aの処理に戻る。
図7Cに示す例では、決定された発言者の人数が3人である場合、記憶されている10個の音声の特徴量のうち、例えば、音声の特徴量1、3、5および10は、同じ発言者の音声の特徴量として判別される。また、音声の特徴量2、4、8および9は、音声の特徴量1、3、5および10とは異なる発言者の音声の特徴量として判別される。このため、最新の音声の特徴量10は、前回算出された音声の特徴量9とは異なる発言者の音声の特徴量として判別され、最新の発言者は、前回の発言者とは異なる発言者として判別される。したがって、この場合、ステップS108において、発言者が変化したと判断される。また、最新の音声の特徴量10は、過去に算出された音声の特徴量1、3および5と同じ発言者の音声の特徴量として判別され、最新の発言者は、過去の発言者と同じ発言者として判別される。したがって、この場合、ステップS111において、変化後の発言者が過去に発言していたと判断される。
本実施形態は、以下の効果を奏する。
議事録出力装置としてのユーザー端末10は、会議における参加人数に関する情報と、音声に関するデータとに基づいて、会議における発言者を判別し、議事録を出力する。ユーザー端末10は、参加人数に応じて発言者を判別するため、発言者を高い精度で判別できる。これにより、ユーザー端末10は、会議における発言者が高い精度で判別された議事録を出力できる。
また、ユーザー端末10は、参加人数に関する情報に基づいて、発言者の人数が参加人数を超えないように、発言者を判別する。ユーザー端末10は、参加人数を超えないように発言者の人数を決定することによって、発言者が変化したか否かを確認する精度を向上させることができる。
また、ユーザー端末10は、音声に関するデータに基づいて音声の特徴量を算出し、算出した音声の特徴量に基づいて、発言者を判別する。これにより、ユーザー端末10は、発言者毎に取り付けたマイクから音声に関するデータを取得したり、発言者の音声に関する学習データを予め準備したりすることなく、発言者を判別できる。
また、ユーザー端末10は、音声の特徴量をクラスターとして分類し、クラスター間の類似度に基づいて、参加人数を超えないようなクラスターの数を決定する。これにより、ユーザー端末10は、クラスター分析および参加人数に基づいて、クラスターの数を効率的に決定できる。
また、ユーザー端末10は、音声の特徴量をクラスターとして、クラスター間の差分を算出する。そして、ユーザー端末10は、クラスター間の差分が小さい(すなわち、類似度が高い)順にクラスターを併合し、最も大きい差分(最も低い類似度)に応じてクラスターが併合される前に存在していたクラスターの数を、発言者の人数として決定する。これにより、ユーザー端末10は、クラスター分析に基づいて、発言者の人数を高い精度で決定できる。
また、ユーザー端末10は、同じクラスターに併合された音声の特徴量を、同じ発言者の音声の特徴量として判別する。これにより、ユーザー端末10は、クラスター分析に基づいて、発言者の音声の特徴量を、高い精度で判別できる。
また、ユーザー端末10は、発言者が変化したと判断する場合、変化後の発言者が会議において過去に発言していたかをさらに判断する。そして、ユーザー端末10は、変化後の発言者が過去に発言していなかったと判断する場合、新たな発言者を示すラベルを出力し、変化後の発言者が過去に発言していたと判断する場合、対応する過去の発言者を示すラベルを出力する。これにより、ユーザー端末10は、発言者が変化した場合、変化後の発言者が過去に発言していたか否かに応じて、適切なラベルを付与できる。
また、ユーザー端末10は、ユーザーによって入力された参加人数に関する情報を取得する。これにより、ユーザー端末10は、ユーザーによって入力された正確な参加人数に関する情報に基づいて、発言者を判別できる。
また、ユーザー端末10は、所定の時間毎に発言者を判別する。これにより、ユーザー端末10は、発言者を迅速かつ正確に判別できる。
また、ユーザー端末10は、ラベルに対応する発言者の名前に関する情報を取得し、ラベルを発言者の名前に置き換えて表示する。これにより、ユーザー端末10は、発言者の名前が明示された議事録を出力できる。
また、ユーザー端末10は、議事録において同一のラベルが複数含まれる場合、全ての同一のラベルを同一の発言者の名前に置き換えて表示する。これにより、ユーザー端末10は、発言者の名前を入力するユーザーの手間を、効果的に削減できる。
なお、本発明は、上述した実施形態に限定されず、特許請求の範囲内において、種々の変更や改良等が可能である。
例えば、上述した実施形態では、制御部11が、ステップS101において、ユーザーによって入力された参加人数に関する情報を取得する場合を例に挙げて説明した。しかし、本実施形態はこれに限定されない。制御部11は、他の取得方法によって、参加人数に関する情報を取得してもよい。
例えば、制御部11は、会議における参加者によって所有される携帯端末から送信された通知に基づいて、参加人数に関する情報を取得してもよい。より具体的には、参加者は、例えば、会議室において設置されたビーコン等の信号を受信可能な、スマートフォン等の携帯端末を所有しており、制御部11は、携帯端末から、ビーコン等の信号を受信した旨の通知を受信してもよい。そして、制御部11は、受信した通知の数を参加人数として、参加人数に関する情報を取得してもよい。あるいは、制御部11は、任意の他の受信方法によって、会議室等の所定の範囲に位置する携帯端末から、携帯端末のデバイスID等の通知を受信してもよい。これにより、ユーザー端末10は、ユーザーに参加人数を入力させないで済むため、参加人数を入力するユーザーの手間を、効果的に削減できる。
あるいは、制御部11は、記憶部12等に記憶されている過去の議事録のデータを確認し、今回の会議における参加人数に関する情報として、過去の議事録によって示される、過去の会議における参加人数に関する情報を取得してもよい。制御部11は、今回の議事録と関連する過去の議事録のデータを確認してもよく、例えば、議事録のタイトルや、議事録が作成された曜日および時間、議事録の作成者等の少なくとも一つが今回の議事録と共通する、過去の議事録のデータを確認してもよい。これにより、ユーザー端末10は、ユーザーに参加人数を入力させないで済むため、参加人数を入力するユーザーの手間を、効果的に削減できる。
あるいは、制御部11は、会議における参加者の点呼の状況に基づいて、参加人数に関する情報を取得してもよい。より具体的には、制御部11は、例えば、会議が開始される前の時間における音声に関するデータを取得して、音声を認識し、会議が開始される前に点呼される参加者の人数や、点呼に応じる参加者の人数等に関する情報を取得してもよい。そして、制御部11は、点呼される参加者の人数や、点呼に応じる参加者の人数等を確認し、参加人数に関する情報を取得してもよい。これにより、ユーザー端末10は、ユーザーに参加人数を入力させないで済むため、参加人数を入力するユーザーの手間を、効果的に削減できる。
また、上述した実施形態では、制御部11が、ステップS103において、音入力部16において入力された音声に関するデータを取得する場合を例に挙げて説明した。しかし、本実施形態はこれに限定されない。制御部11は、例えば、記憶部12等に記憶されている、過去の会議における音声に関するデータを取得してもよい。これにより、ユーザー端末10は、過去の会議の議事録を後から出力する必要が生じた場合でも、過去の会議における発言者が高い精度で判別された議事録を出力できる。
また、上述した実施形態では、制御部11が、所定の時間毎に、ステップS107の処理を実行する場合を例に挙げて説明した。しかし、本実施形態はこれに限定されない。制御部11は、例えば、所定の発言数毎に、すなわち、所定の数の発言が蓄積される毎に、ステップS107の処理を実行してもよい。これにより、ユーザー端末10は、様々なタイミングにおいて、発言者を判別できる。
また、上述した実施形態では、制御部11が、複数の音声の特徴量の各々を各クラスターとして、クラスター間の差分を算出し、クラスター間の差分に基づいて、クラスターを併合する場合を例に挙げて説明した。しかし、本実施形態はこれに限定されない。制御部11は、例えば、クラスター間の差分の逆数として定義されるクラスター間の類似度を算出し、クラスター間の類似度に基づいて、クラスターを併合してもよい。より具体的には、制御部11は、残存するクラスターの数が1つになるまで、類似度が高い順に、クラスターを併合する処理を実行してもよい。
また、上述した実施形態では、発言者が自動的に判別される場合を例に挙げて説明した。しかし、本実施形態はこれに限定されない。発言者を示すラベルとして、誤ったラベルが発言の内容に関連付けられた場合、誤ったラベルが訂正されてもよい。より具体的には、操作受付部15は、誤ったラベルを訂正するユーザーの操作を受け付けてもよく、制御部11は、ラベルの訂正に関する情報を取得してもよい。さらに、制御部11は、取得したラベルの訂正に関する情報に基づいて、誤ったラベルを訂正し、訂正したラベルを表示部14に表示させてもよい。なお、誤ったラベルは、会議の終了後にユーザーによって訂正されてもよいし、会議中において誤ったラベルが表示される度に、ユーザーによって訂正されてもよい。これにより、ユーザー端末10は、発言者を自動的に判別できなかった場合でも、ユーザーに訂正させることができ、発言者が高い精度で判別された議事録を出力できる。
また、上述した実施形態では、制御部11が、出力部としての表示部14に、議事録を出力させる場合を例に挙げて説明した。しかし、本実施形態はこれに限定されない。制御部11は、出力制御部として、出力部としての任意の他の装置に、議事録を出力させてもよい。例えば、制御部11は、他のユーザー端末やプロジェクター等に、通信部13等を介して議事録のデータを送信し、議事録を出力させてもよい。あるいは、制御部11は、画像形成装置に、通信部13等を介して議事録のデータを送信し、印刷物としての議事録を出力させてもよい。
(変形例1)
上述した実施形態では、制御部11が、ステップS101において、参加人数に関する情報を取得する場合を例に挙げて説明した。変形例1では、制御部11が、異なるタイミングにおいて、参加人数に関する情報を取得する場合について説明する。
制御部11は、会議が開始された後において参加人数が変化した場合、変化後の参加人数に関する情報を取得する。以下では、制御部11が、ユーザーによって入力された、変化後の参加人数に関する情報を取得する場合を例に挙げて説明する。ただし、制御部11は、上述したような他の取得方法によって、変化後の参加人数に関する情報を取得してもよい。
図8A~図8Cは、ユーザー端末に表示される画面の一例を示す図である。
制御部11は、例えば図8Aに示すように、ステップS101において取得された参加人数に関する情報に基づいて、現在の参加人数を示すソフトキーを、表示部14に表示させているものとする。この状況において、操作受付部15が、当該ソフトキーを押下するユーザーの操作を受け付けた場合、制御部11は、例えば図8Bに示すような参加人数の入力(再入力)画面を、表示部14に表示させる。そして、操作受付部15が、変化後の参加人数を入力するユーザーの操作を受け付けた場合、制御部11は、ユーザーによって入力された、変化後の参加人数に関する情報を取得する。さらに、制御部11は、取得した変化後の参加人数に関する情報に基づいて、以降のステップS107の処理を実行し、以降の発言者を判別する。なお、表示部14は、例えば図8Cに示すように、変化前の参加人数と、変化後の参加人数と、参加人数が変化したタイミングとを表示してもよい。
以上のように、変形例1に係るユーザー端末10は、会議が開始された後において参加人数が変化した場合、変化後の参加人数に関する情報を取得し、変化後の参加人数に関する情報に基づいて、以降の発言者を判別する。これにより、ユーザー端末10は、会議中に参加人数が変化した場合でも、高い精度で発言者を判別し続けることができる。
(変形例2)
上述した実施形態では、会議において、1つのユーザー端末10が使用される場合を例に挙げて説明した。変形例2では、複数のユーザー端末10が使用される場合について説明する。
図9は、議事録出力システムの全体構成を示す図である。
図9に示すように、議事録出力(作成)システム1は、複数のユーザー端末10A、10Bおよび10Cを備える。複数のユーザー端末10A、10Bおよび10Cは、複数の異なる拠点a、bおよびcに位置し、複数の異なるユーザーであるAさん、BさんおよびCさんによって使用される。ユーザー端末10A、10Bおよび10Cは、上述した実施形態に係るユーザー端末10と同様の構成を備え、LAN(Local Area Network)等のネットワーク20を介して、相互に通信可能に接続されている。なお、議事録出力システム1は、上述した構成要素以外の構成要素を備えてもよいし、上述した構成要素のうちの一部の構成要素を備えなくてもよい。
変形例2では、ユーザー端末10A、10Bおよび10Cのいずれかが、議事録出力装置として機能する。例えば、図9に示す例において、ユーザー端末10Aが、議事録出力装置であり、Aさんが、議事録の作成者であり、BさんおよびCさんが、会議の参加者であってもよい。なお、議事録出力システム1は、周知のテレビ会議システムや、ウェブ会議システム等からは独立しており、ユーザー端末10Aは、これらのシステムから、発言者の拠点等の情報を取得しないものとする。
議事録出力装置としてのユーザー端末10Aは、上述したステップS101~S118の処理を実行する。ただし、ユーザー端末10Aは、ステップS103において、ユーザー端末10Bおよび10Cにおいて入力された音声に関するデータを、ネットワーク20等を介して、ユーザー端末10Bおよび10Cから取得する。これにより、ユーザー端末10Aは、発言者であるBさんおよびCさんが、高い精度でリアルタイムに判別された議事録を出力できる。
また、上述した例において、Aさんは、議事録の作成者かつ会議の参加者であってもよい。この場合、ユーザー端末10Aは、ステップS103において、自装置において入力された音声に関するデータを取得すると共に、ユーザー端末10Bおよび10Cにおいて入力された音声に関するデータも取得する。これにより、ユーザー端末10Aは、発言者であるAさん、BさんおよびCさんが、高い精度でリアルタイムに判別された議事録を出力できる。
なお、ユーザー端末10Aは、ステップS103において、議事録出力システム1からは独立した周知のテレビ会議システムや、ウェブ会議システム等から、これらのシステムにおいて取得されている音声に関するデータを取得してもよい。これにより、ユーザー端末10Aは、これらのシステムから独立した議事録出力装置としての、利便性の高さを実現しつつ、これらのシステムから、音声に関するデータをより容易に取得できる。
以上のように、変形例2に係る議事録出力システム1では、複数の異なるユーザー端末が使用され、音声に関するデータが取得される。これにより、議事録出力システム1では、会議の参加者が複数の異なる拠点に位置する場合でも、発言者が高い精度で判別された議事録が出力される。
なお、上述した実施形態では、ユーザー端末10を一つの装置として説明したが、本実施形態はこれに限定されない。例えば、各種処理を実行する情報処理装置と、表示部や操作受付部等のユーザーインターフェースを備える装置とが、別々に構成されてもよい。この場合、各装置は、有線または無線によって接続されてもよい。また、各種処理を実行する情報処理装置は、サーバーであってもよい。
また、上述した実施形態に係る処理は、上述したステップ以外のステップを含んでもよいし、上述したステップのうちの一部のステップを含まなくてもよい。また、ステップの順序は、上述した実施形態に限定されない。さらに、各ステップは、他のステップと組み合わされて一つのステップとして実行されてもよく、他のステップに含まれて実行されてもよく、複数のステップに分割されて実行されてもよい。
また、上述した実施形態に係るユーザー端末10における各種処理を行う手段および方法は、専用のハードウエア回路、およびプログラムされたコンピューターのいずれによっても実現することが可能である。上述したプログラムは、例えば、CD-ROM(Compact Disc Read Only Memory)等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され、記憶される。また、上述したプログラムは、単独のアプリケーションソフトとして提供されてもよいし、ユーザー端末10の一機能としてその装置のソフトウェアに組み込まれてもよい。
10 ユーザー端末、
11 制御部、
111 情報取得部、
112 音声取得部、
113 音声認識部、
114 表示制御部(出力制御部)、
115 判別部、
12 記憶部、
13 通信部、
14 表示部、
15 操作受付部、
16 音入力部。

Claims (18)

  1. 会議における参加人数に関する情報を取得する情報取得部と、
    前記会議における音声に関するデータを取得する音声取得部と、
    前記音声取得部によって取得された前記音声に関するデータに基づいて、前記音声を認識し、発言者の発言としてテキスト化する音声認識部と、
    前記情報取得部によって取得された前記参加人数に関する情報と、前記音声取得部によって取得された前記音声に関するデータとに基づいて、前記発言者を判別する判別部と、
    前記判別部によって判別された前記発言者を示すラベルと、前記音声認識部によってテキスト化された前記発言の内容とを関連付けた議事録を、出力部に出力させる出力制御部と、
    を有し、
    前記判別部は、前記音声に関するデータに基づいて算出した前記音声の特徴量をクラスターとして分類するとともに、前記クラスター間の類似度を算出し、前記類似度が高い順に前記クラスターを併合し、最も低い前記類似度に応じて前記クラスターが併合される前に存在していた前記クラスターの数を、前記発言者の人数として決定する議事録出力装置。
  2. 前記判別部は、前記参加人数に関する情報に基づいて、前記発言者の人数が前記参加人数を超えないように、前記発言者を判別する請求項1に記載の議事録出力装置。
  3. 前記判別部は、前記音声の特徴量に基づいて、前記発言者を判別する請求項1または2に記載の議事録出力装置。
  4. 前記判別部は、同じ前記クラスターに併合された前記音声の特徴量を、同じ前記発言者の前記音声の特徴量として判別する請求項1~3のいずれか一項に記載の議事録出力装置。
  5. 前記判別部は、前記発言者の判別結果に基づいて、前記発言者が変化したか否かを判断し、前記発言者が変化したと判断する場合、変化後の前記発言者が前記会議において過去に発言していたか否かをさらに判断し、
    前記出力制御部は、
    前記判別部によって、変化後の前記発言者が過去に発言していなかったと判断された場合、新たな前記発言者を示す前記ラベルを前記出力部に出力させ、
    前記判別部によって、変化後の前記発言者が過去に発言していたと判断された場合、対応する過去の前記発言者を示す前記ラベルを前記出力部に出力させる請求項1~4のいずれか一項に記載の議事録出力装置。
  6. 前記判別部は、所定の時間毎または所定の発言数毎に、前記発言者を判別する請求項1~5のいずれか一項に記載の議事録出力装置。
  7. 前記情報取得部は、入力された前記参加人数に関する情報を取得する請求項1~6のいずれか一項に記載の議事録出力装置。
  8. 前記情報取得部は、前記会議における参加者によって所有される携帯端末から送信された通知に基づいて、前記参加人数に関する情報を取得する請求項1~6のいずれか一項に記載の議事録出力装置。
  9. 前記情報取得部は、記憶部に記憶されている過去の議事録のデータを確認し、前記参加人数に関する情報として、過去の議事録によって示される過去の前記会議における前記参加人数に関する情報を取得する請求項1~6のいずれか一項に記載の議事録出力装置。
  10. 前記情報取得部は、前記会議における参加者の点呼の状況に基づいて、前記参加人数に関する情報を取得する請求項1~6のいずれか一項に記載の議事録出力装置。
  11. 前記情報取得部は、前記会議が開始された後において前記参加人数が変化した場合、変化後の前記参加人数に関する情報をさらに取得し、
    前記判別部は、前記情報取得部によって取得された変化後の前記参加人数に関する情報に基づいて、以降の前記発言者を判別する請求項1~10のいずれか一項に記載の議事録出力装置。
  12. 前記情報取得部は、誤った前記ラベルが前記発言の内容に関連付けられた場合、前記ラベルの訂正に関する情報をさらに取得し、
    前記出力制御部は、前記情報取得部によって取得された前記ラベルの訂正に関する情報に基づいて、誤った前記ラベルを訂正し、訂正した前記ラベルを前記出力部に出力させる請求項1~11のいずれか一項に記載の議事録出力装置。
  13. 前記情報取得部は、前記ラベルに対応する前記発言者の名前に関する情報を取得し、
    前記出力制御部は、前記ラベルを前記発言者の名前に置き換えて、前記出力部に出力させる請求項1~12のいずれか一項に記載の議事録出力装置。
  14. 前記出力制御部は、前記議事録において同一の前記ラベルが複数含まれる場合、全ての同一の前記ラベルを同一の前記発言者の名前に置き換えて、前記出力部に出力させる請求項13に記載の議事録出力装置。
  15. 議事録を出力する議事録出力装置の制御プログラムであって、
    会議における参加人数に関する情報を取得する情報取得ステップと、
    前記会議における音声に関するデータを取得する音声取得ステップと、
    前記音声取得ステップにおいて取得された前記音声に関するデータに基づいて、前記音声を認識し、発言者の発言としてテキスト化する音声認識ステップと、
    前記情報取得ステップにおいて取得された前記参加人数に関する情報と、前記音声取得ステップにおいて取得された前記音声に関するデータとに基づいて、前記発言者を判別する判別ステップと、
    前記判別ステップにおいて判別された前記発言者を示すラベルと、前記音声認識ステップにおいてテキスト化された前記発言の内容とを関連付けた議事録を、出力部に出力させる出力ステップと、
    を含む処理をコンピューターに実行させ、
    前記判別ステップは、前記音声に関するデータに基づいて算出した前記音声の特徴量をクラスターとして分類するとともに、前記クラスター間の類似度を算出し、前記類似度が高い順に前記クラスターを併合し、最も低い前記類似度に応じて前記クラスターが併合される前に存在していた前記クラスターの数を、前記発言者の人数として決定する制御プログラム。
  16. 前記判別ステップは、前記参加人数に関する情報に基づいて、前記発言者の人数が前記参加人数を超えないように、前記発言者を判別する請求項15に記載の制御プログラム。
  17. 前記判別ステップは、前記音声の特徴量に基づいて、前記発言者を判別する請求項15または16に記載の制御プログラム。
  18. 前記判別ステップは、同じ前記クラスターに併合された前記音声の特徴量を、同じ前記発言者の前記音声の特徴量として判別する請求項15~17のいずれか一項に記載の制御プログラム。
JP2018234375A 2018-12-14 2018-12-14 議事録出力装置および議事録出力装置の制御プログラム Active JP7259307B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018234375A JP7259307B2 (ja) 2018-12-14 2018-12-14 議事録出力装置および議事録出力装置の制御プログラム
US16/687,780 US20200194003A1 (en) 2018-12-14 2019-11-19 Meeting minute output apparatus, and control program of meeting minute output apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018234375A JP7259307B2 (ja) 2018-12-14 2018-12-14 議事録出力装置および議事録出力装置の制御プログラム

Publications (2)

Publication Number Publication Date
JP2020095210A JP2020095210A (ja) 2020-06-18
JP7259307B2 true JP7259307B2 (ja) 2023-04-18

Family

ID=71071217

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018234375A Active JP7259307B2 (ja) 2018-12-14 2018-12-14 議事録出力装置および議事録出力装置の制御プログラム

Country Status (2)

Country Link
US (1) US20200194003A1 (ja)
JP (1) JP7259307B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010704B (zh) * 2020-11-18 2022-03-29 北京字跳网络技术有限公司 一种会议纪要的交互方法、装置、设备及介质
JP7000547B1 (ja) 2020-12-22 2022-01-19 株式会社オプティム プログラム、方法、情報処理装置、システム
JP7337772B2 (ja) * 2020-12-25 2023-09-04 株式会社エクシオテック 会議確認評価システム
US11837219B2 (en) 2021-11-18 2023-12-05 International Business Machines Corporation Creation of a minute from a record of a teleconference
KR102549882B1 (ko) * 2022-05-23 2023-06-30 브레인소프트주식회사 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 시스템 및 방법

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287201A (ja) 2003-03-24 2004-10-14 Seiko Epson Corp 議事録作成装置及び方法、ならびに、コンピュータプログラム
JP2008293310A (ja) 2007-05-25 2008-12-04 Toyota Motor Corp 消費者の嗜好動向を分析する方法、システムおよびプログラム
JP2009053430A (ja) 2007-08-27 2009-03-12 Yamaha Corp 音声処理装置およびプログラム
JP2009069172A (ja) 2007-09-10 2009-04-02 Konica Minolta Business Technologies Inc 議事録作成装置、議事録作成システム、議事録作成方法および議事録作成プログラム
JP2010060850A (ja) 2008-09-04 2010-03-18 Nec Corp 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム
JP2010169924A (ja) 2009-01-23 2010-08-05 Nec Corp 音声分類装置、音声分類方法及びプログラム
JP2014206896A (ja) 2013-04-15 2014-10-30 Yamagata Intech株式会社 情報処理装置、及び、プログラム
JP2017167636A (ja) 2016-03-14 2017-09-21 株式会社リコー 会議室予約装置、会議室予約方法、及びプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287201A (ja) 2003-03-24 2004-10-14 Seiko Epson Corp 議事録作成装置及び方法、ならびに、コンピュータプログラム
JP2008293310A (ja) 2007-05-25 2008-12-04 Toyota Motor Corp 消費者の嗜好動向を分析する方法、システムおよびプログラム
JP2009053430A (ja) 2007-08-27 2009-03-12 Yamaha Corp 音声処理装置およびプログラム
JP2009069172A (ja) 2007-09-10 2009-04-02 Konica Minolta Business Technologies Inc 議事録作成装置、議事録作成システム、議事録作成方法および議事録作成プログラム
JP2010060850A (ja) 2008-09-04 2010-03-18 Nec Corp 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム
JP2010169924A (ja) 2009-01-23 2010-08-05 Nec Corp 音声分類装置、音声分類方法及びプログラム
JP2014206896A (ja) 2013-04-15 2014-10-30 Yamagata Intech株式会社 情報処理装置、及び、プログラム
JP2017167636A (ja) 2016-03-14 2017-09-21 株式会社リコー 会議室予約装置、会議室予約方法、及びプログラム

Also Published As

Publication number Publication date
US20200194003A1 (en) 2020-06-18
JP2020095210A (ja) 2020-06-18

Similar Documents

Publication Publication Date Title
JP7259307B2 (ja) 議事録出力装置および議事録出力装置の制御プログラム
CN108305615B (zh) 一种对象识别方法及其设备、存储介质、终端
US20170084274A1 (en) Dialog management apparatus and method
US9293133B2 (en) Improving voice communication over a network
US20190259388A1 (en) Speech-to-text generation using video-speech matching from a primary speaker
WO2020211354A1 (zh) 基于说话内容的说话者身份识别方法、装置及存储介质
US9047866B2 (en) System and method for identification of a speaker by phonograms of spontaneous oral speech and by using formant equalization using one vowel phoneme type
US20180018974A1 (en) System and method for detecting tantrums
WO2019067312A1 (en) SYSTEMS AND METHODS FOR PROVIDING CONTENT NOT READ
US20150227510A1 (en) System for speaker diarization based multilateral automatic speech translation system and its operating method, and apparatus supporting the same
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
US10699706B1 (en) Systems and methods for device communications
JP2010232780A (ja) 通信制御装置、通信制御方法、及び通信制御プログラム
CN110827803A (zh) 方言发音词典的构建方法、装置、设备及可读存储介质
WO2021169365A1 (zh) 声纹识别的方法和装置
JP5549506B2 (ja) 音声認識装置及び音声認識方法
JP6731802B2 (ja) 検出装置、検出方法及び検出プログラム
US20200279570A1 (en) Speaker determination apparatus, speaker determination method, and control program for speaker determination apparatus
JP2013257418A (ja) 情報処理装置、および情報処理方法、並びにプログラム
US20180350360A1 (en) Provide non-obtrusive output
JP2009086207A (ja) 議事録情報生成システム、議事録情報生成方法、及び議事録情報生成プログラム
CN113096651A (zh) 语音信号处理方法、装置、可读存储介质及电子设备
CN113593523A (zh) 基于人工智能的语音检测方法、装置及电子设备
CN111582708A (zh) 医疗信息的检测方法、系统、电子设备及计算机可读存储介质
WO2021171417A1 (ja) 発話終端検出装置、制御方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230320

R150 Certificate of patent or registration of utility model

Ref document number: 7259307

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150