JP7505590B2 - レイアウト方法、レイアウト装置及びプログラム - Google Patents

レイアウト方法、レイアウト装置及びプログラム Download PDF

Info

Publication number
JP7505590B2
JP7505590B2 JP2022570827A JP2022570827A JP7505590B2 JP 7505590 B2 JP7505590 B2 JP 7505590B2 JP 2022570827 A JP2022570827 A JP 2022570827A JP 2022570827 A JP2022570827 A JP 2022570827A JP 7505590 B2 JP7505590 B2 JP 7505590B2
Authority
JP
Japan
Prior art keywords
data
layout
trajectory
unit
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022570827A
Other languages
English (en)
Other versions
JPWO2022137351A1 (ja
Inventor
千尋 高山
桃子 中谷
愛 中根
陽子 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2022137351A1 publication Critical patent/JPWO2022137351A1/ja
Application granted granted Critical
Publication of JP7505590B2 publication Critical patent/JP7505590B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Description

本発明は、レイアウト方法、レイアウト装置及びプログラムに関する。
従来から、会議中又は会議終了後に会議を振り返るための種々の手法が提案されている。会議の記録方法についても、従来の文字による議事録の作成だけではなく、議論内容に対応するイラストや写真などを使ったグラフィカルな記録方法も提案されている。記録に利用される媒体についても、物理的な紙面とペンだけではなく、静電容量式、感圧式、光学式などのタッチパネルとデジタルペンなどを使って、手書き操作をデジタルデータとして記録する方法などが考案されている。
例えば、特許文献1では、音声認識の結果を利用して、イラストを検索及び表示しながら議事録を編集及び記録し、振り返りを支援するシステム及び方法が提案されている。
このような記録方法は、一般に、議事録の作成者が議論の内容を把握しながら、参加者が見える位置にリアルタイムに議事録を描画することで、論点の共有化を図って議論を収束させたり、イラストや写真などのイメージからアイデアを想起させることで議論を発散させたりする効果があるとされる。
また、このような記録方法では、議論の流れや構造に応じて、記録内容を上から下へ時系列に記述していくレイアウトや、左右に対比させて配置するレイアウト、中心から関連するキーワードに応じて放射状に広がるレイアウトなど、様々なレイアウトが用いられる。
特許第6339529号公報
論点を予め定めない議論などにおいては、議事録作成者は議論の内容を理解しながら、グラフィックとして表現する方法を考え、レイアウトにも配慮しながら、分かりやすくグラフィックを描画する必要があり、議事録作成者には高い認知負荷と非常に高いスキルが求められる。
議事録作成者が、議論の内容を事前に十分に予測又は理解できていない場合や、十分なスキルを有していない場合などには、以下の課題が発生する。
なお、ここでは、タッチパネルとデジタルペンを使った、デジタルデータとしてのイラストを活用した議事録作成又は振り返りを対象とする。
[作成時]
議事録の作成者は、アイデア発想や意見集約など議論の種類によっては、議論の流れや論点の数を事前に把握することができない場合がある。
そのため、予め議事録のレイアウトを定めることは難しく、作成途中にレイアウトを変更する必要が発生することがある。例えば、議論の後半で全体として重要な論点が議論され始めた場合、その論点を目立たせるために大きく表現する必要があるが、既にグラフィックを描画するスペースが十分に残されていない状態が発生しうる。この場合、新たにスペースを作るため、個々のイラストの範囲を指定し、その位置やサイズをレイアウトしなおす必要がある。
しかし、画面上に描画された議事録のレイアウトを途中から変更することは、イラスト間の関係や位置の指定など煩雑な操作が必要になるため、議論の可視化に既に高い認知資源を割いている議事録作成者が議論の中で行うことは難しい。
[振り返り]
議論に参加していない人が、作成された議事録を見ながら、議論を後から振り返る場合、イラストや写真などを使った議事録の場合、必ずしも時系列で記録及びレイアウトされている訳ではないため、議論の流れを振り返りにくい場合がある。
一方で、議事録作成者が、従来の文字での議事録に多く見られる時系列順に縦に並べるレイアウトを採用するルールとすると、イラストや写真を使ったグラフィカルな議事録の長所である自由なレイアウトが実現できなくなる。
本発明は、上記の点に鑑みてなされたものであって、対話の内容が理解しやすい対話記録の作成を支援することを目的とする。
そこで上記課題を解決するため、対話の音声に対する音声認識によって生成された第1のテキストデータにおける話題の変化を区切りとして複数の第2のテキストデータを生成する生成手順と、前記対話に伴って描画された複数の軌跡を取得する取得手順と、前記複数の軌跡を、それぞれの軌跡の描画位置に基づいて複数のグループに分割する分割手順と、前記グループごとに、当該グループが示す描画内容に関連する前記第2のテキストデータを当該グループに対応付け、共通の前記第2のテキストデータに対応付けられた前記グループを一つのグループに統合する対応付け手順と、ユーザによるレイアウトの変更指示に応じ、前記対応付け手順によって対応付けられた各グループを当該変更指示に応じたレイアウトで出力するレイアウト手順と、をコンピュータが実行する。
対話の内容が理解しやすい対話記録の作成を支援することができる。
本発明の実施の形態におけるレイアウト装置10のハードウェア構成例を示す図である。 本発明の実施の形態におけるレイアウト装置10の機能構成例を示す図である。 トピックデータの構成例を示す図である。 ストロークデータの構成例を示す図である。 枠フラグ付きストロークデータの構成例を示す図である。 メイン色付きストロークデータの構成例を示す図である。 描画内容分割部16が実行する処理手順の一例を説明するためのフローチャートである。 領域データの構成例を示す図である。 対応付け部17が実行する処理手順の一例を説明するためのフローチャートである。 連結データの構成例を示す図である。 統合後の連結データの一例を示す図である。 操作受付画面の表示例を示す図である。 スペース作成選択画面の表示例を示す図である。 レイアウト変更選択画面の表示例を示す図である。 レイアウト結果の第1の例を示す図である。 レイアウト結果の第2の例を示す図である。
以下、図面に基づいて本発明の実施の形態を説明する。図1は、本発明の実施の形態におけるレイアウト装置10のハードウェア構成例を示す図である。図1のレイアウト装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、インタフェース装置105、表示装置106、及び入力装置107等を有する。
レイアウト装置10での処理を実現するプログラムは、CD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従ってレイアウト装置10に係る機能を実現する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。表示装置106はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置107は、例えば、タッチパネルやボタン等で構成され、タッチパネルに対するデジタルペンやユーザの指等の接触を検知したり、ボタンの押下を検知したりすることで、様々な操作指示の入力を受け付ける。
図2は、本発明の実施の形態におけるレイアウト装置10の機能構成例を示す図である。図2において、レイアウト装置10は、音声認識部11、トピック認識部12、ストローク入力部13、枠描画検出部14、ペン種別検出部15、描画内容分割部16、対応付け部17、操作受付部18及びレイアウト部19を有する。これら各部は、レイアウト装置10にインストールされた1以上のプログラムが、CPU104に実行させる処理により実現される。レイアウト装置10は、また、データ記憶部121を利用する。データ記憶部121は、例えば、補助記憶装置102、又はレイアウト装置10にネットワークを介して接続可能な記憶装置等を用いて実現可能である。
以下、各部について詳細に説明する。
[音声認識部11]
音声認識部11は、二人以上の複数人が参加する会議等における議論(対話)の音声波形データの入力を受け付け、当該音声波形データについてテキストデータへの変換を実行する。この際、テキストデータには、所定の単位ごと(例えば、文字ごと)に発話されたタイミング(絶対時刻又は対話開始からの相対時刻)を示す情報がメタデータとして付加される。
音声波形データの取得は、会議等の参加者が各々に着けるピンマイクを介して行われてもよいし、環境中の音響を取得する会議用マイクを介して行われてもよい。音声波形データの取得においては、必ずしも話者分離が行われる必要はなく、音声認識精度が高まる音声波形データの取得方法であればどのような方法が利用されてもよい。音声波形データに対する音声認識には、既存の音声認識技術(例えば、NTTテクノクロス社のSpeechRec(登録商標)(https://www.speechrec.jp/)等)が利用されてもよい。また、この音声波形データに、特許第5791081号公報に開示された技術を利用することで、話者分離を行い、話者ごとに生成されるテキストデータに話者の情報が付与されてもよい。この場合、話者に関する情報は、トピック認識部12によるテキストデータの解析処理に影響を与えないよう、テキストデータに関するメタデータとして付与される(すなわち、テキストデータとは別のデータとしてテキストデータに関連付けられる)のが望ましい。
[トピック認識部12]
トピック認識部12は、音声認識部11が取得したテキストデータにおけるトピック(話題)の変化を区切りとして複数のテキストデータ(以下、「トピック別テキスト」という。)を生成する。具体的には、トピック認識部12は、音声認識部11が取得したテキストデータにおいてトピックが変化した位置(トピックの境目となる文字)を検出することで、特定のトピックに関する対話の開始時刻・終了時刻を検出する。すなわち、トピック認識部12は、トピックが変化した位置の一文字前の文字に対してメタデータとして付与されている時刻(以下、単に「文字の時刻」という。)を、変化前のトピックの終了時刻とし、当該位置に係る文字の時刻を変化後のトピックの開始時刻とする。
トピックの変化は、対話中の一定の無音区間(すなわち、隣接する文字の間の時刻の差が一定時間以上であること)の発生に基づいて検出してもよいし、予め定めているトピック変更キーワード(例えば、「ところで」、「次に進みます」、「そろそろ時間なので」など)の出現に基づいて検出してもよいし、単語間の意味的な距離を記録したコーパスデータを使って、音声認識された対話中の単語の概念ベクトルとの距離から、トピックの変化を検出してもよい(特許第6210934号公報)。
トピック認識部12は、時系列に変化したトピックごとに、当該トピックの開始時刻及び終了時刻や、当該開始時刻から当該終了時刻までのトピック別テキスト等を含むデータをトピックデータとして生成し、当該トピックデータを、例えば、メモリ装置103又は補助記憶装置102に記録する。なお、トピック認識部12は、トピックデータに対して特許第6210934号公報や特許第6347938号公報に開示された技術を適用することで、対話において主要となるトピック(主要トピック)や重要語を抽出し、抽出したトピックや重要語をトピックデータの別カラムとして記録してもよい。
図3は、トピックデータの構成例を示す図である。図3における各行が1つのトピックデータに相当する。図3に示されるように、1つのトピックデータは、開始時刻、終了時刻、対話データ及び主要トピック等を含む。開始時刻及び終了時刻は、当該トピックデータに係る対話の開始時刻及び終了時刻である。対話データは、当該対話を示す文字列(すなわち、トピック別テキスト)である。なお、図3では、話者分離が行われた例が示されている。したがって、対話データは、話者の発話単位の文字列に分割され、各文字列には、当該文字列に対応する発話の開始時刻及び終了時刻と、当該発話の話者の識別子とがメタデータとして付与されている。
[ストローク入力部13]
ストローク入力部13は、議事録等の対話の記録(以下「対話記録」という。)の作成者が、静電容量式や圧電式、光学式などの方法によってデジタルペンの接触を認識できる表示装置106としてのタブレットや画面(以下、「描画画面」という。)などを使って描画したデジタルペンの軌跡を取得し、当該軌跡を示すストロークデータを生成する。
図4は、ストロークデータの構成例を示す図である。図4における各行は、1つストロークデータに対応する。図4に示されるように、1つのストロークデータには、1つのストローク(軌跡)の開始地点、終了地点、開始時刻、終了時刻、色、軌跡データが含まれる。このうち、色は、ストロークの色である。例えば、ユーザは、入力装置107を構成するボタン等で色を選択した後、デジタルペンを利用して描画を行う。ストローク入力部13は、斯かる色の選択を記憶することで、各ストロークの色を識別する。また、軌跡データは、当該ストロークの軌跡を示すデータであり、例えば、時間単位の(一定時間ごとの)当該ストロークの位置を示す座標値の集合によって表現される。また、開始地点、終了地点及び軌跡データの座標は、例えば、描画画面の座標系における座標である。なお、ストロークとは、デジタルペンが接触してからその接触が解除されるまでのデジタルペンの接触位置の軌跡をいう。ストローク入力部13は、例えば、描画画面へのデジタルペンの接触を検知し、当該接触の解除を検知するまで当該デジタルペンの接触位置を一定時間ごとに取得することで、ストロークごとにストロークデータを取得することができる。
[枠描画検出部14]
枠描画検出部14は、ストローク入力部13が1つのストロークデータを生成するたびに(すなわち、1つのストロークが描画されるたびに)、当該ストロークデータに係るストロークが、対話記録中の描画内容(ストロークの集合)を区分してレイアウトするために描画された枠線なのか否か(例えば、イラストや文字等の描画なのか)を、当該ストロークの形状に基づいて判定する。
例えば、枠描画検出部14は、ストロークデータが示すストロークの最小外接矩形の幅及び高さを算出し、当該幅又は当該高さが一定の値以上(例えば、描画画面の幅又は高さの1/4以上)であれば、当該ストロークデータに係るストロークは枠であると判定する。枠描画検出部14は、ストロークデータに対して、当該ストロークデータに係るストロークが枠線であるか否かの判定結果を示すフラグ(枠フラグ)を付与したデータ(以下、「枠フラグ付きストロークデータ」という。)を生成する。枠描画検出部14は、枠フラグ付きストロークデータを生成するたびに、当該枠フラグ付きストロークデータをペン種別検出部15へ送信する。
図5は、枠フラグ付きストロークデータの構成例を示す図である。図5に示されるように、枠フラグ付きストロークデータは,ストロークデータに加えて枠フラグを含む。なお、枠フラグの値は、TRUE又はFALSEである。TRUEは枠線であることを示し、FALSEは枠線でないことを示す。
[ペン種別検出部15]
ペン種別検出部15は、枠フラグ付きストロークデータを受信するたびに、当該枠フラグ付きストロークデータの色に基づいて、メインのペンが何色であるかを判定する。グラフィカルな対話記録においては、文字や図を描画するペンと、文字や図に影などの装飾や色付けを行うペンとが使い分けられる。「メインのペンの色」は、文字や図を描画するペンの色を意味する。
具体的には、ペン種別検出部15は、メインのペンの色の変数をメモリ装置103に記憶する。ペン種別検出部15は、当該変数を任意の暗色(例えば「黒」)で初期化する。ペン種別検出部15は、枠フラグ付きストロークデータを受信するたびに、それまでで最も利用頻度の高い色で当該変数の値を更新する。ペン種別検出部15は、枠フラグ付きストロークデータに対して、当該枠フラグ付きストロークデータの色がメインのペンの色であるか否かを示す情報を付与したデータ(以下、「メイン色付きストロークデータ」という。)を生成する。ペン種別検出部15は、メイン色付きストロークデータを生成するたびに、当該メイン色付きストロークデータを描画内容分割部16へ送信する。
図6は、メイン色付きストロークデータの構成例を示す図である。図6に示されるように、メイン色付きストロークデータは,枠フラグ付きストロークデータに加えてメイン色フラグを含む。なお、メイン色フラグの値は、TRUE又はFALSEである。TRUEは、当該メイン色付きストロークデータの「色」がメインペンの色であることを示す。FALSEは、当該メイン色付きストロークデータの「色」がメインペンの色でないことを示す。
[描画内容分割部16]
描画内容分割部16は、メイン色付きストロークデータをペン種別検出部15から受信するたびに、それまでに受信したメイン色付きストロークデータ群について、一つの絵又は文字を構成する可能性の高い1以上のメイン色付きストロークデータの集合を特定する。すなわち、描画内容分割部16は、それまでに受信したメイン色付きストロークデータ群(描画内容)を、絵又は文字を構成する単位ごとのグループに分割する。
描画内容分割部16は、斯かる分割に際し、ストロークの時間間隔(既に受信済みのメイン色付きストロークデータの終了時刻から、新たに受信したメイン色付きストロークデータの開始時刻までの経過時間)と、ストローク間の距離(既に受信済みのメイン色付きストロークデータに係るストロークの一様近傍と新たに受信したメイン色付きストロークデータの開始地点との最短距離)の情報を利用する。描画内容分割部16は、グループごとに、当該グループに属するメイン色付きストロークデータ群に基づいて領域データを生成し、当該領域データを対応付け部17へ送信する。
図7は、描画内容分割部16が実行する処理手順の一例を説明するためのフローチャートである。
ステップS101において、描画内容分割部16は、1つのメイン色付きストロークデータ(以下、「対象ストロークデータ」という。)を受信する。続いて、描画内容分割部16は、対象ストロークデータの枠フラグがTRUEであるか否か(すなわち、対象ストロークデータに係るストローク(以下、「対象ストローク」という。)が枠線であるか否か)を判定する(S102)。対象ストロークの枠フラグがTRUEである場合(S102でYes)、描画内容分割部16は、対象ストロークデータに関する処理を終了する。すなわち、枠線に対応するストロークデータは、いずれのグループにも属さない。このことは、後述のレイアウト部19によって、枠線がレイアウト対象から除外されることを意味する。
対象ストロークの枠フラグがFALSEである場合(S102でNo)、描画内容分割部16は、対象ストロークとの位置関係が所定の条件を満たす他のストロークの有無を判定する(S103)。ここで、所定の条件とは、対象ストロークの近傍に描画されたことを示す条件である。例えば、対象ストロークの距離rの一様近傍に重なることが、所定の条件とされてもよい。対象ストロークの距離rの一様近傍とは、対象ストロークと垂直に交わる両方向に距離rの幅を有し、かつ、当該ストロークの両端点において半径rの円の形状を有する領域をいう。対象ストロークが他のストロークの一様近傍と重なるかは、当該一様近傍に、他のストロークの一部が含まれるかに基づいて判定可能である。なお、rは、予め設定される閾値である。例えば、デジタルペンの太さの倍数(例えば、3倍)がrの値とされてもよい。また、rの値は、画面全体のストロークの数の増加にしたがって(すなわち、画面上の描画された絵又は文字の増加にしたがって)小さくされてもよい。
対象ストロークとの位置関係が所定の条件を満たす他のストロークが無い場合(S103でNo)、描画内容分割部16は、対象ストロークを含む新たなグループを生成し、当該グループに対応する領域データを生成する(S104)。
図8は、領域データの構成例を示す図である。図8において、各行は1つの領域データに対応する。図8に示されるように、各領域データは、開始時刻、終了時刻、初期位置、領域及び画像データ等を含む。開始時刻、終了時刻は、当該領域データに対応するグループの描画が開始されてから、当該描画が終了するまでの期間を示す。すなわち、開始時刻は、当該領域データに属するメイン色付きストロークデータ群の開始時刻のうち、最も早い開始時刻である。終了時刻は、当該領域データに属するメイン色付きストロークデータ群の終了時刻のうち、最も遅い終了時刻である。画像データとは、当該ストローク群が或る太さ(例えば、デジタルペンのペン先の太さ)で描画されることで生成される画像データをいう。画像データは、領域データの生成に伴って描画内容分割部16によって生成される。領域とは、当該画像データの幅及び高さである。初期位置とは、描画画面に対する当該画像データの領域の左上頂点の座標である。
対象ストロークとの位置関係が所定の条件を満たす他のストロークが有る場合(S103でYes)、描画内容分割部16は、当該所定の条件を満たす1以上の他のストロークに係る各メイン色付きストロークデータ(以下、「近傍ストロークデータ」という。)について、当該近傍ストロークデータの終了時刻から、対象ストロークデータの開始時刻までの経過時間が所定時間(t時間)未満であるか否かを判定する(S105)。tは、予め設定される閾値(例えば10秒)である。
当該経過時間がt時間未満である近傍ストロークデータが有る場合(S105でYes)、描画内容分割部16は、当該近傍ストロークデータが属するグループに係る領域データに対して対象ストロークデータを追加することで、当該領域データを更新する(S107)。具体的には、描画内容分割部16は、当該領域データの開始時刻、終了時刻、初期位置及び領域を、対象ストロークデータに基づいて必要に応じて更新するとともに、当該領域データの画像データに対して対象ストロークを描画(記録)する。なお、当該t時間が経過していない近傍ストロークデータが複数存在する場合、対象ストロークデータの開始位置と一様近傍との距離が最も近い1つの近傍ストロークデータが属する領域データに対して、対象ストロークデータが追加されればよい。
いずれの近傍ストロークデータについても当該経過時間がt時間以上である場合(S105でNo)、描画内容分割部16は、対象ストロークデータのメイン色フラグがTRUEであるか否かを判定する(S106)。当該メイン色フラグがTRUEである場合(S106でYes)、描画内容分割部16は、ステップS104を実行し、そうでない場合(S106でNo)、描画内容分割部16は、ステップS107を実行する。すなわち、メインペンの色で描画されたストロークは、t時間以上前に描画された近傍のストロークと同じグループに含められる。
描画内容分割部16は、例えば、一定時間(例えば、5分等)ごとに、当該一定時間において新たに生成された領域データ又は更新された領域データ(以下、「領域データ群」という。)を対応付け部17へ送信する。当該一定時間において該当する領域データが無い場合、描画内容分割部16は、領域データの送信を行わない。
[対応付け部17]
対応付け部17は、描画内容分割部16から領域データ群(図8)を受信するたびに、トピック認識部12が生成したトピックデータ(図3)と、当該領域データ群に含まれる各領域データとを対応付ける。
図9は、対応付け部17が実行する処理手順の一例を説明するためのフローチャートである。対応付け部17は、描画内容分割部16から受信した領域データ群に含まれる領域データごとに、ステップS201~S205を含むループ処理L1を実行する。ループ処理L1において処理対象とされている領域データを、以下「対象領域データ」という。
ステップS201において、対応付け部17は、対象領域データの画像データの意味ラベル(当該画像データが示す画像の意味を示すラベル)を取得する。具体的には、対応付け部17は、対象領域データの画像データに対して、光学文字認識(OCR(Optical Character Recognition))を行い、当該画像データ中の文字列情報を取得する。対応付け部17は、並行して、画像辞書データを使った画像の認識処理を当該画像データに対して行い(例えば、特許第6283308号公報)、当該画像データ中の物体の識別とラベル付けを行う。対応付け部17は、文字列情報と物体の識別及びラベル付けとのうち、認識精度の良い方を選択し、選択した方の情報を領域データに対する意味ラベルとする。
続いて、対応付け部17は、当該意味ラベルに意味的に近い対話データを含むトピックデータを、対象領域データの終了時刻から遡って、終了時刻の降順にN個分のトピックデータ群(以下、「直近トピックデータ群」という。)の中から検索する(S202)。なお、意味的に近いか否かは、対話データ中に意味ラベルと一致する単語が有るか否か、又は対話データの出現単語のうち、概念ベクトルを使った意味ラベルとの距離(すなわち、出現単語の概念ベクトルと意味ラベルの概念ベクトルとの距離)が閾値未満である出現単語が有るか否かに基づいて判定されてもよい。
該当するトピックデータが1以上ある場合(S203でYes)、対応付け部17は、対象領域データと、該当する各トピックデータとを連結したデータ(以下、「連結データ」という。)を生成する(S204)。この場合、該当するトピックデータの数だけ連結データが生成される。該当するトピックデータが無い場合(S203でNo)、対応付け部17は、対象領域データと、直近トピックデータ群の中で最新のトピックデータとを連結することで連結データを生成する(S205)。この場合、対象トピックデータに対しては、1つの連結データが生成される。
図10は、連結データの構成例を示す図である。図10においてID=1のレコードと、ID=2のレコードとの領域データは共通である。すなわち、これら2つのレコードは、ステップS202において該当するトピックデータが複数検索された場合に生成された連結データの例を示す。
一方、ID=3のレコードとID=4のレコードとのトピックデータは共通である。これら2つのレコードは、ステップS204又はS205において、1つの領域データに対して1つのトピックデータが連結されることにより生成された連結データであって、異なる領域データに対して同じトピックデータが連結された連結データの例を示す。
描画内容分割部16から受信した領域データ群に含まれる全ての領域データについてループ処理L1が実行されると、対応付け部17は、ループ処理L1において生成された連結データ群のうち、領域データ又はトピックデータが共通する連結データ群が有れば、該当する連結データ群を一つの連結データに統合する(S206)。
図11は、統合後の連結データの一例を示す図である。図11において、ID=1の連結データは、図10のID=1の連結データと、ID=2の連結データとの統合結果である。また、図11において、ID=2の連結データは、図10のID=3の連結データと、ID=4の連結データとの統合結果である。
具体的には、図10のID=1、ID=2の連結データのように、領域データが共通する連結データ群について、対応付け部17は、当該連結データ群のそれぞれのトピックデータを統合することで、当該領域データと統合後のトピックデータとが連結された1つの連結データを生成する。統合後のトピックデータの開始時刻は、統合元の各トピックデータの開始時刻の最小値である。統合後のトピックデータの終了時刻は、統合元の各トピックデータの終了時刻の最大値である。統合後のトピックデータの対話データ及び主要トピックは、統合元の各トピックデータのそれぞれの対話データ又は主要トピックを単純に結合した結果である。
一方、図10のID=3、ID=4の連結データのように、トピックデータが共通する連結データ群について、対応付け部17は、当該連結データ群のそれぞれの領域データを統合することで、統合後の領域データと当該トピックデータとが連結された1つの連結データを生成する。統合後の領域データの開始時刻は、統合元の各領域データの開始時刻の最小値である。統合後の領域データの終了時刻は、統合元の各領域データの終了時刻の最大値である。統合後の領域データの初期位置x,yそれぞれは、統合元の各領域データのx,yそれぞれの最小値である。統合後の領域データの幅w、高さhそれぞれは、統合元の各領域データのx+w,y+hそれぞれの最大値から、統合後のx,yの値を差し引いた値である。統合後の領域データの画像データは、統合元の各領域データの画像データを合成することで得られる画像データである。
なお、トピックデータが統合された場合、以降のストロークの入力に応じて実行される処理については、統合後のトピックデータが有効となる。また、領域データが統合された場合、以降のストロークの入力に応じて実行される処理については、統合後の領域データが有効となる。
対応付け部17は、図9の処理手順によって新たに生成された1以上の連結データ(例えば、図11に示した連結データ)をデータ記憶部121へ記憶する。その結果、データ記憶部121には、過去に生成された連結データが記憶される。
[操作受付部18]
操作受付部18は、ユーザからの操作を受け付ける。物理的なボタンや、タッチ操作が可能なタブレット、マウス・キーボードを使った操作などが受け付け対象の操作として考えられる。操作内容は、大きく2種類あり、対話記録作成時(対話中の任意のタイミング)のスペース作成(描画画面におけるスペースの作成)と、対話記録を振り返り時のレイアウト変更である。これら2種類の操作内容に関する指示をユーザから受け付けるため、操作受付部18は、例えば、図12に示されるような操作選択画面510を表示装置106へ表示してもよい。
スペース作成には、「元に戻す」、「中央に縮小」、「左に寄せる」、「右に寄せる」、「上に寄せる」及び「下に寄せる」等の選択肢が有る。操作受付部18は、操作選択画面510において「スペース作成」が選択された場合、例えば、図13に示されるようなスペース作成選択画面520を表示装置106に表示して、いずれかの選択肢の選択をユーザから受け付けてもよい。
「元に戻す」は、対話記録作成時のままのレイアウトを再現することをいう。「中央に縮小」は、画面中央に描画要素を寄せることをいう。ここで、描画要素とは、データ記憶部121に記憶されている各連結データ(図11)の画像データをいう。「左に寄せる」は、画面上の左に描画要素を寄せることをいう。「右に寄せる」は、画面上の右に描画要素を寄せることをいう。「上に寄せる」は、画面上の上に描画要素を寄せることをいう。「下に寄せる」は、画面上の下に描画要素を寄せることをいう。
レイアウトの変更には、「初期状態」、「時系列(縦)」、「時系列(横)」、「時系列(Z字)」、「時系列(逆N字)」、時系列(時計回り)」、「時系列(反時計回り)」、「ネットワーク型(共起関係)」、「ネットワーク型(シソーラス)」等の選択肢が有る。操作受付部18は、操作選択画面510において「レイアウト変更」が選択された場合、例えば、図14に示されるようなレイアウト変更選択画面530を表示装置106に表示して、いずれかの選択肢の選択をユーザから受け付けてもよい。
「初期状態」は、対話記録作成時のままのレイアウトを再現することをいう。「時系列(縦)」は、描画要素を上から下へ時系列に並べることをいう。「時系列(横)」は、描画要素を左から右へ時系列に並べることをいう。「時系列(Z字)」は、左上、右上、左下、右下の順で描画要素を時系列に並べることをいう。「時系列(逆N字)」は、左上、左下、右上、右下の順で描画要素を時系列に並べることをいう。「時系列(時計回り)」は、画面中心を回転軸として、時計回りに描画要素を時系列に並べることをいう。「時系列(反時計回り)」は、画面中心を回転軸として、反時計回りに描画要素を時系列に並べることをいう。「ネットワーク型(共起関係)」とは、各描画要素に対応する各対話データのうち、形態素解析により取得した名詞、動詞の共起関係が強い対話データの集合に係る各描画要素同士を近くに配置することをいう。対話データ間の共起関係の強弱は、同一の名詞又は動詞の出現頻度に基づいて評価されればよい。「ネットワーク型(シソーラス)」とは、各描画要素に対応する各対話データのうち、形態素解析により取得した名詞の意味が近い関係にある対話データの集合に係る各描画要素を近くに配置することをいう。なお、名詞の意味の近さは、既存の類語辞典などを使って評価されればよい。
[レイアウト部19]
レイアウト部19は、データ記憶部121に記憶されている連結データについて、操作受付部18で指定されたレイアウトの変更指示に従って、各描画要素について、描画画面上の位置及びサイズを決定し、決定した位置及びサイズで各描画要素を出力する。
「元に戻す」又は「初期状態」が指定された場合、レイアウト部19は、各連結データの初期位置に従って、各描画要素を描画する座標を設定し、各描画要素のサイズを変更せずに各描画要素を描画する。描画先の画面(以下、「レイアウト画面」という。)は、描画画面であってもよいし、描画画面と異なる画面であってもよい。
「中央に縮小」が指定された場合、レイアウト部19は、レイアウト画面の中央を基点として、個々の描画要素を縮小し、レイアウト画面の中央に寄せた位置に各描画要素を描画する。なお、縮小の程度は、予めデフォルト値(例えば75%縮小)が設定されてもよいし、1~100%の間の任意の値がレイアウトの変更に際してユーザによって入力されてもよい。
「左に寄せる」、「右に寄せる」、「上に寄せる」又は「下に寄せる」が指定された場合、レイアウト部19は、はそれぞれ、個々の描画要素を縮小したうえで、画面の上、下、左又は右に寄せた位置に描画要素を描画する。
「時系列(縦)」又は「時系列(横)」が指定された場合、レイアウト部19は、「開始時刻」の昇順に、上から下又は左から右に描画位置を定め、レイアウト画面内に収まるよう各描画要素を縮小したうえで、各描画要素を描画する。
同様に、「時系列(Z字)」、「時系列(逆N字)」、「時系列(時計回り)」又は「時系列(反時計回り)」が指定された場合においても、レイアウト部19は、「開始時刻」の昇順に、Z字、N字の鏡文字、時計回りの円、又は反時計回りの円を描くように各描画要素の位置を設定し、レイアウト画面内に収まるように各描画要素のサイズを縮小したうえで、各描画要素を描画する。
なお、「初期状態」、「中央に縮小」、「左に寄せる」、「時系列(横)」、「時系列(逆N字)」又は「時系列(反時計回り)」が指定された場合のレイアウト結果の一例を図15に示す。
「ネットワーク型(共起関係)」が指定された場合、レイアウト部19は、各描画要素に対応する対話データから形態素解析により取得した名詞、動詞を抽出し、それぞれの出現頻度が同じものが近くなるよう、各描画要素の位置を設定して、各描画要素を描画する。「ネットワーク型(シソーラス)」が指定された場合、レイアウト部19は、各描画要素に対応する対話データから形態素解析により名詞を取得し、既存の類語辞典などを使って意味が近い関係がある名詞同士に係る描画要素が近くなるように各描画要素の一を設定して、各描画要素を描画する。「ネットワーク型(共起関係)」又は「ネットワーク型(シソーラス)」が指定された場合のレイアウト結果の一例を図16に示す。
上述したように、本実施の形態によれば、イラストや写真を活用したグラフィカルな対話記録について、作成者の振る舞いと議論の内容を踏まえて、対話記録の分節化を行い、各描画要素のレイアウトの変更を実現することができる。したがって、対話の内容が理解しやすい対話記録の作成を支援することができる。
また、レイアウトの変更により、あまりスキルの高くない対話記録作成者によって作成される対話記録や、論点が事前に分からないオープンディスカッションなどの対話記録について、レイアウトを途中で変更することで、グラフィカルな対話記録を描画するスペースを新たに作ることができる。
また、対話記録を閲覧する人が、レイアウトを複数パターンに変更することで、対話の振り返りを容易にすることができる。
また、枠線のストロークはレイアウトの対象から除外されるため、対話記録としては不要な情報である枠線の表示を抑制することができる。
また、データ記憶部121には、画像データ、対話データ、トピック内容(主要トピック)、話者などを記録できるため、発言内容に対応する要素を検索可能とすることもできる。
なお、本実施の形態において、トピック認識部12は、生成部の一例である。ストローク入力部13は、取得部の一例である。描画内容分割部16は、分割部の一例である。
以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
10 レイアウト装置
11 音声認識部
12 トピック認識部
13 ストローク入力部
14 枠描画検出部
15 ペン種別検出部
16 描画内容分割部
17 対応付け部
18 操作受付部
19 レイアウト部
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
106 表示装置
107 入力装置
121 データ記憶部
B バス

Claims (7)

  1. 対話の音声に対する音声認識によって生成された第1のテキストデータにおける話題の変化を区切りとして複数の第2のテキストデータを生成する生成手順と、
    前記対話に伴って描画された複数の軌跡を取得する取得手順と、
    前記複数の軌跡を、それぞれの軌跡の描画位置に基づいて複数のグループに分割する分割手順と、
    前記グループごとに、当該グループが示す描画内容に関連する前記第2のテキストデータを当該グループに対応付け、共通の前記第2のテキストデータに対応付けられた前記グループを一つのグループに統合する対応付け手順と、
    ユーザによるレイアウトの変更指示に応じ、前記対応付け手順によって対応付けられた各グループを当該変更指示に応じたレイアウトで出力するレイアウト手順と、
    をコンピュータが実行することを特徴とするレイアウト方法。
  2. 前記分割手順は、第1の軌跡と第2の軌跡との位置関係が所定の条件を満たし、かつ、前記第1の軌跡の描画時刻と前記第2の軌跡の描画時刻との差が所定時間未満であれば、前記第1の軌跡と前記第2の軌跡とを同一のグループに含める、
    ことを特徴とする請求項1記載のレイアウト方法。
  3. 前記分割手順は、前記第1の軌跡の描画時刻と前記第2の軌跡の描画時刻との差が所定時間以上であっても、前記第1の軌跡の色と前記第2の軌跡の色とが同じであれば、前記第1の軌跡と前記第2の軌跡とを同一のグループに含める、
    ことを特徴とする請求項2記載のレイアウト方法。
  4. 前記対応付け手順は、前記グループが示す描画内容に対する文字認識によって得られる文字列と、前記第2のテキストデータに含まれる文字列との比較に基づいて、前記第2のテキストデータを前記グループに対応付ける、
    ことを特徴とする請求項1乃至3いずれか一項記載のレイアウト方法。
  5. 前記取得手順が取得した各軌跡について、前記複数の軌跡が示す描画内容を区分するための枠線であるか否かを判定する判定手順をコンピュータが実行し、
    前記分割手順は、前記枠線であると判定された前記軌跡を、前記複数のグループのいずれにも含めない、
    ことを特徴とする請求項1乃至4いずれか一項記載のレイアウト方法。
  6. 対話の音声に対する音声認識によって生成された第1のテキストデータにおける話題の変化を区切りとして複数の第2のテキストデータを生成する生成部と、
    前記対話に伴って描画された複数の軌跡を取得する取得部と、
    前記複数の軌跡を、それぞれの軌跡の描画位置に基づいて複数のグループに分割する分割部と、
    前記グループごとに、当該グループが示す描画内容に関連する前記第2のテキストデータを当該グループに対応付け、共通の前記第2のテキストデータに対応付けられた前記グループを一つのグループに統合する対応付け部と、
    ユーザによるレイアウトの変更指示に応じ、前記対応付け部によって対応付けられた各グループを当該変更指示に応じたレイアウトで出力するレイアウト部と、
    を有することを特徴とするレイアウト装置。
  7. 請求項1乃至5いずれか一項記載のレイアウト方法をコンピュータに実行させることを特徴とするプログラム。
JP2022570827A 2020-12-22 2020-12-22 レイアウト方法、レイアウト装置及びプログラム Active JP7505590B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/047983 WO2022137351A1 (ja) 2020-12-22 2020-12-22 レイアウト方法、レイアウト装置及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2022137351A1 JPWO2022137351A1 (ja) 2022-06-30
JP7505590B2 true JP7505590B2 (ja) 2024-06-25

Family

ID=82158615

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022570827A Active JP7505590B2 (ja) 2020-12-22 2020-12-22 レイアウト方法、レイアウト装置及びプログラム

Country Status (3)

Country Link
US (1) US20240013778A1 (ja)
JP (1) JP7505590B2 (ja)
WO (1) WO2022137351A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006090481A1 (ja) 2005-02-23 2006-08-31 Hitachi, Ltd. 書類管理システム
JP2019133605A (ja) 2018-02-02 2019-08-08 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014042092A (ja) * 2012-08-21 2014-03-06 Sharp Corp 電子黒板装置
JP6339529B2 (ja) * 2015-06-10 2018-06-06 日本電信電話株式会社 会議支援システム、及び会議支援方法
JP2017016566A (ja) * 2015-07-06 2017-01-19 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006090481A1 (ja) 2005-02-23 2006-08-31 Hitachi, Ltd. 書類管理システム
JP2019133605A (ja) 2018-02-02 2019-08-08 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Also Published As

Publication number Publication date
JPWO2022137351A1 (ja) 2022-06-30
US20240013778A1 (en) 2024-01-11
WO2022137351A1 (ja) 2022-06-30

Similar Documents

Publication Publication Date Title
JP6903808B2 (ja) リアルタイム手書き認識の管理
US10409488B2 (en) Intelligent virtual keyboards
TWI570632B (zh) 使用一通用辨識器之多筆跡手寫辨識
TWI653545B (zh) 用於即時手寫辨識之方法、系統及非暫時性電腦可讀媒體
CN103049254B (zh) 用于语义缩放的编程接口
US20160041965A1 (en) Improved data entry systems
CN101998107B (zh) 信息处理装置、会议系统和信息处理方法
CN106933465A (zh) 一种基于智能桌面的内容显示方法和智能桌面终端
JP2008084110A (ja) 情報表示装置、情報表示方法及び情報表示プログラム
CN110602516A (zh) 基于视频直播的信息交互方法、装置及电子设备
CN111524206A (zh) 一种生成思维导图的方法和装置
US20220406311A1 (en) Audio information processing method, apparatus, electronic device and storage medium
KR102347068B1 (ko) 컨텐트를 재생하는 방법 및 이를 위한 디바이스
JP7505590B2 (ja) レイアウト方法、レイアウト装置及びプログラム
JP5448372B2 (ja) 選択式情報提示装置および選択式情報提示処理プログラム
US20240135973A1 (en) Video segment selection and editing using transcript interactions
JP2018077843A (ja) 思考・議論支援システムおよびその方法
US20240127858A1 (en) Annotated transcript text and transcript thumbnail bars for text-based video editing
US20240127855A1 (en) Speaker thumbnail selection and speaker visualization in diarized transcripts for text-based video
US20240126994A1 (en) Transcript paragraph segmentation and visualization of transcript paragraphs
US20240134597A1 (en) Transcript question search for text-based video editing
US20240127857A1 (en) Face-aware speaker diarization for transcripts and text-based video editing
US20230144394A1 (en) Systems and methods for managing digital notes
Wingate Watching Textual Screens Then and Now: Text Movies, Electronic Literature, and the Continuum of Countertextual Practice
US20240127508A1 (en) Graphic display control apparatus, graphic display control method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240527

R150 Certificate of patent or registration of utility model

Ref document number: 7505590

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150