JP7418761B2

JP7418761B2 - 画像と文字との混在文章を生成する装置

Info

Publication number: JP7418761B2
Application number: JP2022566868A
Authority: JP
Inventors: 謙一上田
Original assignee: AdeuNek
Current assignee: AdeuNek
Priority date: 2020-12-02
Filing date: 2021-11-24
Publication date: 2024-01-22
Anticipated expiration: 2041-11-24
Also published as: US20230169257A1; JPWO2022118720A1; WO2022118720A1

Description

本発明は画像と文字との混在文章を生成する装置に関する。

今日、パソコンや携帯電話が普及し、これらを用いた電子メールやＳＮＳ（social networking service）では、無味乾燥な文字に絵文字を加えることがより親しみ易い表現方法として広く利用されて来ている。また、地図記号、交通標識、電車内の優先座席標識などには、文字ではなく絵が表示されるのが一般的である。

一方、インターネットの普及により、世界中の人々がリアルタイムでコミュニケーションをとることが可能になってきている。しかし、言語の違う人々とのコミュニケーションは難しい。従って、コミュニケーションを補助するために、絵やイラストなどを利用したコミュニケーション手段が求められている。

本発明の１つの観点において、画像と文字との混在文章を生成する装置は、
自然言語文章を読み込む第１のモジュールと、
前記自然言語文章のうちの変換対象部分を特定する第２のモジュールと、
画像とその内容を表現する言葉とを対応付けて記憶した画像データベースを参照して前記変換対象部分に対応する変換後の画像を特定し、前記自然言語文章において前記変換対象部分を前記変換後の画像に変換して表示させる第３のモジュールと、
を含む。

本発明の他の１つの観点において、画像と文字との混在文章を生成する装置は、
自然言語文章を入力順に読み込む第１のモジュールと、
変換コマンドの入力を受け付けて前記自然言語文章のうちの変換対象部分を特定する第２のモジュールと、
第３のモジュールであって、
前記変換対象部分が当該自然言語文章において初めて特定されたものである場合は、画像とその内容を表現する言葉とを対応付けて記憶した画像データベースを参照して前記変換対象部分に対応する複数の候補画像を表示させ、前記複数の候補画像から１つの候補画像の選択を受け付けて前記変換対象部分を前記１つの候補画像に変換して表示させ、前記変換対象部分と前記１つの候補画像とを対応付けて記憶し、
前記変換対象部分が当該自然言語文章において２回目以降に特定されたものである場合は、前記変換対象部分を記憶された前記１つの候補画像に変換して表示させる、
前記第３のモジュールと、
を含む。

混在文章生成装置２０及びその周辺装置のブロック図である。画像データベース３０の一部を示す。第１の実施形態に係る混在文章生成装置２０のフローチャートである。変換対象部分を画像に変換して表示させる処理の詳細を示すフローチャートである。Ｓ１１０において混在文章生成装置２０が読み込んだ自然言語文章の例を示す。Ｓ１２０において自然言語文章から抽出された単語を示す。Ｓ１２０において変換対象部分として特定された単語を示す。Ｓ１３１において特定された変換後の画像を示す。Ｓ１３２において生成された画像と文字との混在文章を示す。Ｓ１１０において混在文章生成装置２０が読み込んだ自然言語文章の例を示す。Ｓ１２０において自然言語文章から抽出された単語を示す。Ｓ１２０において変換対象部分として特定された単語を示す。Ｓ１３１において特定された変換後の画像を示す。Ｓ１３２において生成された画像と文字との混在文章を示す。第２の実施形態に係る混在文章生成装置２０のフローチャートである。変換対象部分を画像に変換して表示させる処理の詳細を示すフローチャートである。Ｓ２１０において入力順に読み込まれた自然言語文章の一部を示す。Ｓ２２０において変換コマンドが入力されたときの表示を示す。Ｓ２３２において表示される複数の候補画像を示す。Ｓ２３３において変換対象部分をユーザーによって選択された１つの候補画像に変換して表示させた例を示す。Ｓ２２０において変換コマンドが入力されたときの表示を示す。Ｓ２３５において変換対象部分をメモリに記憶された１つの候補画像に変換して表示させた例を示す。Ｓ２１０において入力順に読み込まれた自然言語文章の一部を示す。Ｓ２２０において変換コマンドが入力されたときの表示を示す。Ｓ２３２において表示される複数の候補画像を示す。Ｓ２３３において変換対象部分をユーザーによって選択された１つの候補画像に変換して表示させた例を示す。Ｓ２２０において変換コマンドが入力されたときの表示を示す。Ｓ２３５において変換対象部分をメモリに記憶された１つの候補画像に変換して表示させた例を示す。第３の実施形態において変換対象部分に対応する画像を特定する処理の詳細を示すフローチャートである。Ｓ１３１ａにおいて意味解析により要素の抽出が行われる変換対象部分の例を示す。Ｓ１３１ａにおいて抽出された要素を示す。Ｓ１３１ｂにおいて抽出された画像を示す。Ｓ１３１ｃにおいてサイズ変更又は変形された画像を示す。Ｓ１３１ｄにおいて合成された画像を示す。Ｓ１３１ａにおいて意味解析により要素の抽出が行われる変換対象部分の例を示す。Ｓ１３１ａにおいて抽出された要素を示す。Ｓ１３１ｂにおいて抽出された画像を示す。Ｓ１３１ｃにおいてサイズ変更又は変形された画像を示す。Ｓ１３１ｄにおいて合成された画像を示す。

以下、本発明の実施形態を、図面を参照しながら詳細に説明する。以下に説明される各実施形態は、本発明の一例を示すものであって、本発明の内容を限定するものではない。また、各実施形態で説明される構成及び動作のすべてが本発明の構成及び動作として必須であるとは限らない。なお、同一の構成要素には同一の参照符号を付して、重複する説明を省略する。

＜１．実施形態の概要＞
第１の実施形態において、混在文章生成装置２０は、変換前の自然言語文章を読み込む（Ｓ１１０、図４Ａ、図５Ａ）。
混在文章生成装置２０は、自然言語文章のうちの変換対象部分を特定する（Ｓ１２０、図４Ｃ、図５Ｃ）。
混在文章生成装置２０は、画像データベース３０を参照して変換対象部分に対応する変換後の画像を特定し（Ｓ１３１、図４Ｄ、図５Ｄ）、自然言語文章において変換対象部分を変換後の画像に変換して表示させる（Ｓ１３２、図４Ｅ、図５Ｅ）。

第２の実施形態において、混在文章生成装置２０は、変換前の自然言語文章を入力順に読み込む（Ｓ２１０、図７Ａ、図８Ａ）。
混在文章生成装置２０は、変換コマンドの入力を受け付けて自然言語文章のうちの変換対象部分を特定する（Ｓ２２０、Ｓ２２５、図７Ｂ、図８Ｂ）。
混在文章生成装置２０は、変換対象部分が当該自然言語文章において初めて特定されたものである場合は、画像データベース３０を参照して変換対象部分に対応する複数の候補画像を表示させ、複数の候補画像から１つの候補画像の選択を受け付けて、変換対象部分を選択された１つの候補画像に変換して表示させる（Ｓ２３１～Ｓ２３３、図７Ｃ、図７Ｄ、図８Ｃ、図８Ｄ）。また、変換対象部分と選択された１つの候補画像とを対応付けて記憶する（Ｓ２３４）。
混在文章生成装置２０は、変換対象部分が当該自然言語文章において２回目以降に特定されたものである場合は、変換対象部分を記憶された１つの候補画像に変換して表示させる（Ｓ２３５、図７Ｆ、図８Ｆ）。

第３の実施形態は、変換後の画像を特定する構成をさらに発展させたものである。混在文章生成装置２０は、変換対象部分の意味解析を行い、解析結果に基づいて画像の編集を行って変換後の画像を生成する（図９～図１１Ｅ）。

＜２．構成＞
図１は、混在文章生成装置２０及びその周辺装置のブロック図である。図１に示される構成は、第１～第３の実施形態で共通である。
混在文章生成装置２０は、入力装置１０、画像データベース３０、及び表示装置４０に接続されている。

入力装置１０は、例えば、ユーザーが自然言語文章やコマンドを入力するためのキーボード、マウス、あるいはタッチパネルを含む。あるいは、入力装置１０は、自然言語文章を図示しない他のコンピュータから受信する通信装置であってもよい。

画像データベース３０は、画像と概念とを対応付けて記憶したデータベースである。画像には、写真及びイラストが含まれる。あるいは、２次元の画像を生成するための３次元モデルが含まれてもよい。概念とは、画像の内容を言葉で表現したものである。画像データベース３０において画像と対応づけられた概念は、上位概念及び下位概念を含む多層構造を構成する。

図２は、画像データベース３０の一部を示す。画像データベース３０は、例えば、「男性」という上位概念に含まれる「少年、男の子」「若者、若い男性」「おじさん、中年の男性」「おじいさん、高齢の男性」といった下位概念ごとに、対応する画像を記憶している。画像に対応づけられる概念は、より詳細なインデックスを含んでもよい。インデックスは、例えば、眼鏡の有無、ひげの有無、喜怒哀楽を示す表情を含む。

図１を再び参照し、表示装置４０は、例えば、生成された画像と文字との混在文章を表示するディスプレイ装置を含む。表示装置４０の代わりに、画像と文字との混在文章を印刷するプリンターや、混在文章を他のコンピュータに送信する通信装置が用いられてもよい。

混在文章生成装置２０は、図示しないプロセッサ、メモリ、ストレージ等を備えたコンピュータである。混在文章生成装置２０は、１台のコンピュータで構成されてもよいし、複数のコンピュータで構成されてもよい。

混在文章生成装置２０は、文章読み込みモジュール２１と、変換対象特定モジュール２２と、画像変換モジュール２３と、を含む。それぞれのモジュールの機能は、ストレージに記憶されたプログラムがメモリにロードされ、プロセッサによって実行されることにより実現される。

文章読み込みモジュール２１は本発明における「第１のモジュール」に相当し、変換前の自然言語文章を読み込む。文章読み込みモジュール２１は、文章編集のためのアプリケーションソフトウエアで実現されてもよい。

変換対象特定モジュール２２は本発明における「第２のモジュール」に相当し、自然言語文章のうちの変換対象となる変換対象部分を特定する。

画像変換モジュール２３は本発明における「第３のモジュール」に相当し、画像データベース３０にアクセスして、変換対象部分に対応する変換後の画像を特定する。さらに、画像変換モジュール２３は、変換対象部分を変換後の画像に変換し、表示装置４０に表示させる。

＜３．第１の実施形態＞
＜３－１．動作＞
図３Ａは、第１の実施形態に係る混在文章生成装置２０のフローチャートである。混在文章生成装置２０は、以下の処理により、自然言語文章を読み込んで変換対象部分を画像に変換することにより、画像と文字との混在文章を生成する。

Ｓ１１０において、混在文章生成装置２０は、入力装置１０から入力される自然言語文章を読み込む。あるいは、混在文章生成装置２０は入力装置１０から入力されるコマンドによって指定された自然言語文章を図示しない記憶装置から読み込んでもよい。

Ｓ１２０において、混在文章生成装置２０は、自然言語文章のうちの変換対象部分を特定する。
変換対象部分は、ユーザーが指定する場合にはその指定に従って特定される。ユーザーは、自然言語文章のうちの画像に変換したい部分に記号などのマーカーを付すことにより、変換対象部分を指定する。
あるいは、変換対象部分は、ユーザーの指定によらず、混在文章生成装置２０によって何らかの基準で特定されてもよい。何らかの基準とは、例えば以下の基準である。

（１）読み込んだ自然言語文章に含まれる単語のうち、当該文章における主語としての出現頻度が閾値以上の単語を特定する。そのような出現頻度は、主語に限定された索引語頻度（term frequency）ということもできる。主語としての出現頻度を計算するには後述の意味解析が必要である。例えば、当該文章において主語として出現した「ぼくたち」「わたし」等の代名詞以外の単語が「コマ」「マリ」「坊ちゃん」の３種類であって、「コマ」と「マリ」の登場回数が閾値以上で、「坊ちゃん」の登場回数が閾値より少ない場合には、「コマ」と「マリ」が変換対象部分として特定される。

（２）読み込んだ自然言語文章に含まれる単語のうち、多数の文書を含む標本文書群において当該単語が出現する文書数が閾値以下の単語を特定する。そのような文書数を文書頻度（document frequency）という。例えば、当該文章において出現した多数の単語のうち、「ぼくたち」「わたし」は多くの文書で登場するありふれた単語であるのに対し、「コマ」「マリ」は閾値以下の少数の文書でしか登場しない単語である場合には、「コマ」と「マリ」が変換対象部分として特定される。

混在文章生成装置２０によって変換対象部分を特定する基準は、（１）と（２）を組み合わせたものでもよいし、他の基準であってもよい。

Ｓ１３０において、混在文章生成装置２０は、画像データベース３０を参照して変換対象部分を画像に変換して表示させる。
Ｓ１３０の後、混在文章生成装置２０は本フローチャートの処理を終了する。

図３Ｂは、変換対象部分を画像に変換して表示させる処理の詳細を示すフローチャートである。図３Ｂに示される処理は、図３ＡのＳ１３０のサブルーチンに相当する。

Ｓ１３１において、混在文章生成装置２０は、Ｓ１２０で特定された変換対象部分に対応する変換後の画像を特定する。例えば、画像データベース３０を変換対象部分に含まれる単語で検索することにより、変換後の画像を特定する。検索で複数の画像がヒットした場合には、詳細なインデックスを参照したり、変換対象部分の前後の言葉による検索結果を参照したりして、最も一致度の高い画像を変換後の画像として特定する。
画像の編集を行って変換対象部分に対応する画像を生成する場合については、第３の実施形態において説明する。

Ｓ１３２において、混在文章生成装置２０は、当該自然言語文章の全体をスキャンし、変換対象部分を変換後の画像に変換して表示装置４０に表示させる。
Ｓ１３２の後、混在文章生成装置２０は、本フローチャートの処理を終了して図３Ａに示される処理に戻る。

＜３－２．具体例＞
図４Ａ～図４Ｅは、第１の実施形態において日本語の自然言語文章の一部を画像に変換する過程を示す。
図５Ａ～図５Ｅは、第１の実施形態において英語の自然言語文章の一部を画像に変換する過程を示す。
図４Ａ～図４Ｅと図５Ａ～図５Ｅとでは、同じ内容の自然言語文章をもとに、画像と文字とが混在する文章を生成している。

図４Ａ及び図５Ａは、Ｓ１１０において混在文章生成装置２０が読み込んだ自然言語文章の例を示す。図４Ａ及び図５Ａに示される自然言語文章は、ハンス・クリスチャン・アンデルセン（Hans Christian Andersen）作の「コマとマリ（The Sweethearts）」の一部である。

図４Ｂ及び図５Ｂは、Ｓ１２０において自然言語文章から抽出された単語を示す。単語とは、文章を構成する要素であって、言葉として意味をなす最小の単位をいう。日本語の場合は文節でもよい。

単語の抽出は、形態素解析と呼ばれる処理によって行われる。日本語のように単語と単語の区切りが表記上明確でない言語においては、図示しない辞書データベースを参照して区切りを判別することにより単語が抽出される。英語のように単語と単語の区切りが表記上明確である言語においては、その表記ルールに従って単語が抽出される。

図４Ｃ及び図５Ｃは、Ｓ１２０において変換対象部分として特定された単語を示す。ここでは「コマ（top）」「マリ（ball）」「ツバメ（swallow）」の３語が特定されたものとする。変換対象部分は、単語よりも大きい単位で特定されてもよい。例えば、変換対象部分として「男の子」「若い男性」「中年の男性」「高齢の男性」のように修飾語を含んだ名詞句が特定されてもよい。「羽織の若い男性」「犬を連れて散歩する少女」のように、より長い句や節でもよい。

図４Ｄ及び図５Ｄは、Ｓ１３１において特定された変換後の画像を示す。変換対象部分「コマ（top）」「マリ（ball）」「ツバメ（swallow）」の各々について１つの画像が特定されている。

図４Ｅ及び図５Ｅは、Ｓ１３２において生成された画像と文字との混在文章を示す。図４Ａ及び図５Ａに示される自然言語文章のうちの変換対象部分「コマ（top）」「マリ（ball）」「ツバメ（swallow）」の各々が画像に変換されている。

図４Ｅ及び図５Ｅに示されるように、当該文章において変換対象部分「コマ（top）」「マリ（ball）」「ツバメ（swallow）」がそれぞれ初めて出現した箇所では変換対象部分を変換後の画像に置き換えるとともに、アンダーラインなどの強調を付した変換対象部分「コマ（top）」「マリ（ball）」「ツバメ（swallow）」を画像に付記している。

当該文章において変換対象部分「コマ（top）」「マリ（ball）」「ツバメ（swallow）」がそれぞれ２回目以降に出現した箇所では変換対象部分を変換後の画像に置き換えており、変換対象部分「コマ（top）」「マリ（ball）」「ツバメ（swallow）」の付記はされていない。

＜３－３．第１の実施形態の効果＞
第１の実施形態によれば、画像と文字との混在文章を生成する混在文章生成装置２０は、自然言語文章を読み込む文章読み込みモジュール２１と、自然言語文章のうちの変換対象部分を特定する変換対象特定モジュール２２と、画像とその内容を表現する言葉とを対応付けて記憶した画像データベース３０を参照して変換対象部分に対応する変換後の画像を特定し、自然言語文章において変換対象部分を変換後の画像に変換して表示させる画像変換モジュール２３と、を含む（図１～図３Ｂ参照）。これによれば、自然言語文章の一部を画像に変換して、言語の異なる人々の理解を助け、言語の違いを超えたコミュニケーションの可能性を拡げることのできる画像と文字との混在文章を自動的に生成できる。

第１の実施形態によれば、画像変換モジュール２３は、自然言語文章において変換対象部分が初めて出現した箇所では変換対象部分を変換後の画像に置き換えるとともに変換対象部分を付記する（図４Ｅ及び図５Ｅ参照）。これによれば、変換対象部分と変換後の画像との対応関係が明確となり、混在文章の理解のしやすさが向上する。
画像変換モジュール２３は、自然言語文章において変換対象部分が２回目以降に出現した箇所で変換対象部分を変換後の画像に置き換える。これによれば、簡潔なわかりやすい表示が可能となる。

＜４．第２の実施形態＞
＜４－１．動作＞
図６Ａは、第２の実施形態に係る混在文章生成装置２０のフローチャートである。混在文章生成装置２０は、以下の処理により、自然言語文章を入力順に読み込んで変換対象部分を画像に変換することにより、画像と文字との混在文章を生成する。当該変換対象部分が当該自然言語文章において初めて特定されたものである場合は、複数の候補画像を表示させてユーザーが選択できるようにし、当該変換対象部分が当該自然言語文章において２回目以降に特定されたものである場合は、既に選択された候補画像に変換する。

Ｓ２１０において、混在文章生成装置２０は、入力装置１０から入力される自然言語文章を入力順に読み込む。通常は文章の先頭から順に入力されるが、入力済みの文章を遡って修正する場合もあり得るので必ずしも先頭からとは限らない。

Ｓ２２０において、混在文章生成装置２０は、変換コマンドが入力されたか否かを判定する。変換コマンドはユーザーによって入力される。変換コマンドが入力されない場合（Ｓ２２０：ＮＯ）、混在文章生成装置２０はＳ２１０に処理を戻して文章の読み込みを続ける。変換コマンドが入力された場合（Ｓ２２０：ＹＥＳ）、混在文章生成装置２０は変換コマンドの入力を受け付け、Ｓ２２５に処理を進める。

Ｓ２２５において、混在文章生成装置２０は、自然言語文章のうちの変換対象部分を特定する。変換対象部分はユーザーによって指定される。例えば、ユーザーが変換対象部分の始点と終点とを指定した場合には、その指定に従って変換対象部分が特定される。あるいは、ユーザーが自然言語文章のうちの任意の１箇所を指定した場合には、その１箇所が含まれる単語が変換対象部分として特定される。あるいは、その１箇所が含まれる句が変換対象部分として特定されるように設定されてもよいし、その１箇所が含まれる節が変換対象部分として特定されるように設定されてもよい。単語を特定する場合にはそのために形態素解析が行われることは上述の通りである。句や節を特定する場合には意味解析が行われる。

Ｓ２３０において、混在文章生成装置２０は、画像データベース３０を参照して変換対象部分を画像に変換して表示させる。
Ｓ２３０の後、混在文章生成装置２０はＳ２１０に処理を戻して文章の読み込みを続ける。

図６Ｂは、変換対象部分を画像に変換して表示させる処理の詳細を示すフローチャートである。図６Ｂに示される処理は、図６ＡのＳ２３０のサブルーチンに相当する。

Ｓ２３１において、混在文章生成装置２０は、Ｓ２２５で特定された変換対象部分が当該自然言語文章において初めて特定された部分であるか否かを判定する。変換対象部分が初めて特定された部分である場合（Ｓ２３１：ＹＥＳ）、混在文章生成装置２０はＳ２３２に処理を進める。

Ｓ２３２において、混在文章生成装置２０は、変換対象部分に対応する複数の候補画像を表示させる。例えば、「コマ（top）」という変換対象部分を用いた画像データベース３０の検索で複数の画像がヒットした場合に、詳細なインデックスを参照したり、変換対象部分の前後の言葉による検索結果を参照したりして、一致度の高い順に、複数の候補画像を表示させる。表示される候補画像の数には制限が設けられてもよい。
画像の編集を行って変換対象部分に対応する画像を生成する場合については、第３の実施形態において説明する。

Ｓ２３３において、混在文章生成装置２０は、ユーザーによる候補画像の選択を受け付け、変換対象部分を選択された１つの候補画像に変換して、表示装置４０に表示させる。

Ｓ２３４において、混在文章生成装置２０は、変換対象部分と選択された１つの候補画像とを対応付けて図示しないメモリに記憶させる。
Ｓ２３４の後、混在文章生成装置２０は、本フローチャートの処理を終了して図６Ａに示される処理に戻る。

変換対象部分が当該自然言語文章において２回目以降に特定された部分である場合（Ｓ２３１：ＮＯ）、混在文章生成装置２０はＳ２３５に処理を進める。
Ｓ２３５において、混在文章生成装置２０は、変換対象部分をＳ２３４で記憶された１つの候補画像に変換して、表示装置４０に表示させる。
Ｓ２３５の後、混在文章生成装置２０は、本フローチャートの処理を終了して図６Ａに示される処理に戻る。

＜４－２．具体例＞
図７Ａ～図７Ｆは、第２の実施形態において日本語の自然言語文章の一部を画像に変換する過程を示す。
図８Ａ～図８Ｆは、第２の実施形態において英語の自然言語文章の一部を画像に変換する過程を示す。
図７Ａ～図７Ｆと図８Ａ～図８Ｆとでは、同じ内容の自然言語文章をもとに、画像と文字とが混在する文章を生成している。

図７Ａ及び図８Ａは、Ｓ２１０において入力順に読み込まれた自然言語文章の一部を示す。ここでは例として、図４Ａ及び図５Ａに示される自然言語文章が先頭から入力されている。

図７Ｂ及び図８Ｂは、Ｓ２２０において変換コマンドが入力されたときの表示を示す。変換対象部分として例えば「コマ（top）」という単語が指定されると、「コマ（top）」に二重線などの強調が付されて表示される。

図７Ｃ及び図８Ｃは、Ｓ２３２において表示される複数の候補画像を示す。当該変換対象部分が当該自然言語文章において初めて特定された部分である場合は、例えば「コマ（top）」という単語に対応する候補画像１～３が表示される。

図７Ｄ及び図８Ｄは、Ｓ２３３において変換対象部分をユーザーによって選択された１つの候補画像に変換して表示させた例を示す。例えば、候補画像１～３のうちの候補画像１が選択された場合に、候補画像２及び３の表示は消えて、候補画像１が表示される。「コマ（top）」という単語と候補画像１との対応関係はメモリに記憶される。

図７Ｄ及び図８Ｄに示されるように、当該文章において変換対象部分「コマ（top）」が初めて出現した箇所では変換対象部分を変換後の画像に置き換えるとともに、アンダーラインなどの強調を付した変換対象部分「コマ（top）」を画像に付記している。但し、図７Ｄ及び図８Ｄに示される変換対象部分が初めて出現したことを示す強調の表示は、図７Ｂ及び図８Ｂに示される変換対象部分として指定されたことを示す強調の表示とは異なる表示形式が用いられる。

図７Ｅ及び図８Ｅは、Ｓ２２０において変換コマンドが入力されたときの表示を示す。変換対象部分として例えば「コマ（top）」という単語が指定されると、「コマ（top）」に二重線などの強調が付されて表示される。図７Ｅ及び図８Ｅに示されるように、「コマ（top）」は図７Ｂ及び図８Ｂにおいて一度指定された言葉である。このような場合、一度指定された言葉が再度入力されたことを変換コマンドの入力とみなすことにして、ユーザーによる変換コマンドの入力操作を軽減してもよい。

図７Ｆ及び図８Ｆは、Ｓ２３５において変換対象部分をメモリに記憶された１つの候補画像に変換して表示させた例を示す。当該文章において変換対象部分「コマ（top）」「マリ（ball）」「ツバメ（swallow）」がそれぞれ２回目以降に出現した箇所では変換対象部分を変換後の画像に置き換えており、変換対象部分「コマ（top）」「マリ（ball）」「ツバメ（swallow）」の付記はされていない。

＜４－３．第２の実施形態の効果＞
第２の実施形態によれば、画像と文字との混在文章を生成する混在文章生成装置２０は、自然言語文章を入力順に読み込む文章読み込みモジュール２１と、変換コマンドの入力を受け付けて自然言語文章のうちの変換対象部分を特定する変換対象特定モジュール２２と、変換対象部分が当該自然言語文章において初めて特定されたものである場合は、画像とその内容を表現する言葉とを対応付けて記憶した画像データベース３０を参照して変換対象部分に対応する複数の候補画像を表示させ、複数の候補画像から１つの候補画像の選択を受け付けて、変換対象部分を選択された１つの候補画像に変換して表示させ、変換対象部分と選択された１つの候補画像とを対応付けて記憶し、変換対象部分が当該自然言語文章において２回目以降に特定されたものである場合は、変換対象部分を記憶された１つの候補画像に変換して表示させる画像変換モジュール２３と、を含む（図１、図２、図６Ａ及び図６Ｂ参照）。これによれば、自然言語文章の一部を画像に変換して、言語の異なる人々の理解を助け、言語の違いを超えたコミュニケーションの可能性を拡げることのできる画像と文字との混在文章を、ユーザーがタイピングしながら生成できる。変換対象部分が当該自然言語文章において初めて特定されたものである場合は複数の候補画像を表示させて１つの候補画像の選択を受け付けることで、ユーザーが適切な画像を選択できる。変換対象部分が当該自然言語文章において２回目以降に特定されたものである場合は変換対象部分を記憶された１つの候補画像に変換することで、ユーザーによる選択操作を軽減でき、１つの自然言語文章の中で同じ変換対象部分については同じ画像に変換することで対応関係を統一できる。

第２の実施形態によれば、画像変換モジュール２３は、自然言語文章において変換対象部分が初めて出現した箇所では変換対象部分を選択された１つの候補画像に置き換えるとともに変換対象部分を付記する（図７Ｆ及び図８Ｆ参照）。これによれば、変換対象部分と変換後の画像との対応関係が明確となり、混在文章の理解のしやすさが向上する。
画像変換モジュール２３は、自然言語文章において変換対象部分が２回目以降に出現した箇所で変換対象部分を選択された１つの候補画像に置き換える。これによれば、簡潔なわかりやすい表示が可能となる。

＜５．第３の実施形態＞
＜５－１．動作＞
図９は、第３の実施形態において変換対象部分に対応する画像を特定する処理の詳細を示すフローチャートである。第３の実施形態においては、変換対象部分に対応する画像が画像データベース３０に存在しない場合に、画像データベース３０に存在する画像の編集を行って変換対象部分に対応する画像を生成する。

図９に示される処理は、図３ＢのＳ１３１のサブルーチンに相当する。あるいは、図６ＢのＳ２３２において変換対象部分に対応する複数の候補画像を表示させるために、同様の処理が行われてもよい。

Ｓ１３１ａにおいて、混在文章生成装置２０は、変換対象部分の意味解析を行い、要素を抽出する。ここでいう要素は、単語でもよいし、句でもよい。意味解析は、品詞などの単語の属性と、構文のルールと、に従って、主語及び述語の関係や、修飾及び被修飾の関係などを解析する処理である。

Ｓ１３１ｂにおいて、混在文章生成装置２０は、Ｓ１３１ａで抽出された要素ごとに画像を抽出する。Ｓ１３１ｂにおいては、第１及び第２の実施形態と同様に画像データベース３０に含まれる画像をそのまま抽出する。

Ｓ１３１ｃにおいて、混在文章生成装置２０は、画像のサイズ変更及び画像の変形の一方又は両方を行う。
画像のサイズ変更は、Ｓ１３１ｄにおいて画像の合成を行う際に縮尺を一致させるための拡大又は縮小の処理である。
画像の変形は、画像データベース３０から抽出された画像の一部を加工する処理である。あるいは、画像データベース３０が３次元モデルのデータを含む場合に、その３次元モデルの加工や、その３次元モデルから２次元の画像を生成するための視点の変更が行われても良い。

Ｓ１３１ｄにおいて、混在文章生成装置２０は、画像の合成を行う。画像の合成は、Ｓ１３１ａで複数の要素が抽出された場合に、Ｓ１３１ｂで抽出された画像、又はＳ１３１ｃでサイズ変更又は変形された画像を合成して、１枚の画像を生成する処理である。

Ｓ１３１ｃ及びＳ１３１ｄにおいては、Ｓ１３１ａにおいて行われた意味解析の結果に従い、変換対象部分に対応する画像が生成される。そのような画像を生成するシステムとして、深層学習（deep learning）を用いた敵対的生成ネットワーク（generative adversarial networks）が知られている。敵対的生成ネットワークは、多数の画像を生成する学習モデルである生成ネットワークと、画像の正否を判定する学習モデルである識別ネットワークという２つのニューラルネットワークから構成される。生成ネットワークは識別ネットワークから正判定を得ようと学習し、識別ネットワークはより正確に判定しようと学習する。Ｓ１３１ｃ及びＳ１３１ｄの代わりに、そのような人工知能が用いられてもよい。

Ｓ１３１ｄの後、混在文章生成装置２０は、本フローチャートの処理を終了し、図３Ｂに示される処理に戻る。

＜５－２．具体例＞
図１０Ａ～図１０Ｅ及び図１１Ａ～図１１Ｅは、第３の実施形態において画像の編集を行って変換対象部分に対応する画像を生成する過程を示す。

図１０Ａ及び図１１Ａは、Ｓ１３１ａにおいて意味解析により要素の抽出が行われる変換対象部分の例を示す。
図１０Ａにおいては「羽織の若い男性」を変換対象部分としている。「羽織の若い男性」に対応する画像は画像データベース３０に存在しないものとする。
図１１Ａにおいては「犬を連れて散歩する少女」を変換対象部分としている。「犬を連れて散歩する少女」に対応する画像は画像データベース３０に存在しないものとする。

図１０Ｂ及び図１１Ｂは、Ｓ１３１ａにおいて抽出された要素を示す。
図１０Ｂにおいては修飾語である「羽織」、修飾語である「若い」、及び主語である「男性」が抽出されている。あるいは、修飾語である「羽織」と、主語である名詞句「若い男性」が抽出されてもよい。
図１１Ｂにおいては修飾語である「犬」、修飾語である「連れて」、修飾語である「散歩する」、及び主語である「少女」が抽出されている。

図１０Ｃ及び図１１Ｃは、Ｓ１３１ｂにおいて抽出された画像を示す。
図１０Ｃにおいては「羽織」及び「若い男性」に対応する画像が抽出されている。画像データベース３０から「若い男性」に対応する画像を抽出するために、「男性」の複数の画像を抽出した後、さらに「若い」で絞り込んでもよい。
図１１Ｃにおいては「犬」、「連れて」、及び「少女」に対応する画像が抽出されている。「連れて」に対応する画像としては犬用の引綱（dog lead）の画像が抽出されている。「散歩する」に対応する画像は画像データベース３０に存在しないものとする。

図１０Ｄ及び図１１Ｄは、Ｓ１３１ｃにおいてサイズ変更又は変形された画像を示す。
図１０Ｄにおいては、「羽織」及び「若い男性」に対応する画像の縮尺が一致するようにこれらの画像のサイズが変更されている。
図１１Ｄにおいては、「少女」に対応する画像が「散歩する少女」の画像となるように、「少女」に対応する画像が変形されている。

図１０Ｅ及び図１１Ｅは、Ｓ１３１ｄにおいて合成された画像を示す。
図１０Ｅにおいては、「羽織」の上に「若い男性」の顔が位置するようにこれらの画像が組み合わされている。
図１１Ｅにおいては、「犬」の首が引綱の一端に接続され、「少女」の手が引綱の他端を握るような位置関係にこれらの画像が組み合わされている。

＜５－３．第３の実施形態の効果＞
第３の実施形態によれば、画像変換モジュール２３は、変換対象部分の意味解析を行い、解析結果に基づいて画像の編集を行って変換後の画像を生成する。これによれば、変換対象部分に対応する画像が画像データベース３０に存在しない場合でも、画像データベース３０に存在する画像を編集して適切な画像を生成し、画像と文字との混在文章を生成できる。

Claims

自然言語文章を入力順に読み込む第１のモジュールと、
変換コマンドが入力されるごとに、前記変換コマンドの入力を受け付けて前記自然言語文章のうちの変換対象部分をユーザーの指定に従って特定する第２のモジュールと、
第３のモジュールであって、
前記変換対象部分が当該自然言語文章において初めて特定されたものである場合は、画像とその内容を表現する言葉とを対応付けて記憶した画像データベースを参照して前記変換対象部分に対応する複数の候補画像を表示させ、前記複数の候補画像から１つの候補画像の選択を受け付けて前記変換対象部分を前記１つの候補画像に変換して表示させ、前記変換対象部分と前記１つの候補画像とを対応付けて記憶し、
前記変換対象部分が当該自然言語文章において２回目以降に特定されたものである場合は、前記変換対象部分を記憶された前記１つの候補画像に変換して表示させる、
前記第３のモジュールと、
を含み、
前記第２のモジュールは、前記ユーザーが始点と終点を指定した場合に、前記始点から前記終点までを前記変換対象部分として特定する、
画像と文字との混在文章を生成する装置。
自然言語文章を入力順に読み込む第１のモジュールと、
変換コマンドが入力されるごとに、前記変換コマンドの入力を受け付けて前記自然言語文章のうちの変換対象部分をユーザーの指定に従って特定する第２のモジュールと、
第３のモジュールであって、
前記変換対象部分が当該自然言語文章において初めて特定されたものである場合は、画像とその内容を表現する言葉とを対応付けて記憶した画像データベースを参照して前記変換対象部分に対応する複数の候補画像を表示させ、前記複数の候補画像から１つの候補画像の選択を受け付けて前記変換対象部分を前記１つの候補画像に変換して表示させ、前記変換対象部分と前記１つの候補画像とを対応付けて記憶し、
前記変換対象部分が当該自然言語文章において２回目以降に特定されたものである場合は、前記変換対象部分を記憶された前記１つの候補画像に変換して表示させる、
前記第３のモジュールと、
を含み、
前記第２のモジュールは、前記ユーザーが前記自然言語文章のうちの１箇所を指定した場合に、その１箇所が含まれる単語、句、又は節を、前記変換対象部分として特定する、
画像と文字との混在文章を生成する装置。
請求項１又は請求項２において、
前記第３のモジュールは、
前記自然言語文章において前記変換対象部分が初めて出現した箇所では前記変換対象部分を前記１つの候補画像に置き換えるとともに前記変換対象部分を付記し、
前記自然言語文章において前記変換対象部分が２回目以降に出現した箇所で前記変換対象部分を前記１つの候補画像に置き換える、
画像と文字との混在文章を生成する装置。