JP7418761B2 - 画像と文字との混在文章を生成する装置 - Google Patents

画像と文字との混在文章を生成する装置 Download PDF

Info

Publication number
JP7418761B2
JP7418761B2 JP2022566868A JP2022566868A JP7418761B2 JP 7418761 B2 JP7418761 B2 JP 7418761B2 JP 2022566868 A JP2022566868 A JP 2022566868A JP 2022566868 A JP2022566868 A JP 2022566868A JP 7418761 B2 JP7418761 B2 JP 7418761B2
Authority
JP
Japan
Prior art keywords
conversion target
image
natural language
text
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022566868A
Other languages
English (en)
Other versions
JPWO2022118720A5 (ja
JPWO2022118720A1 (ja
Inventor
謙一 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AdeuNek
Original Assignee
AdeuNek
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AdeuNek filed Critical AdeuNek
Publication of JPWO2022118720A1 publication Critical patent/JPWO2022118720A1/ja
Publication of JPWO2022118720A5 publication Critical patent/JPWO2022118720A5/ja
Application granted granted Critical
Publication of JP7418761B2 publication Critical patent/JP7418761B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Processing Or Creating Images (AREA)

Description

本発明は画像と文字との混在文章を生成する装置に関する。
今日、パソコンや携帯電話が普及し、これらを用いた電子メールやSNS(social networking service)では、無味乾燥な文字に絵文字を加えることがより親しみ易い表現方法として広く利用されて来ている。また、地図記号、交通標識、電車内の優先座席標識などには、文字ではなく絵が表示されるのが一般的である。
一方、インターネットの普及により、世界中の人々がリアルタイムでコミュニケーションをとることが可能になってきている。しかし、言語の違う人々とのコミュニケーションは難しい。従って、コミュニケーションを補助するために、絵やイラストなどを利用したコミュニケーション手段が求められている。
本発明の1つの観点において、画像と文字との混在文章を生成する装置は、
自然言語文章を読み込む第1のモジュールと、
前記自然言語文章のうちの変換対象部分を特定する第2のモジュールと、
画像とその内容を表現する言葉とを対応付けて記憶した画像データベースを参照して前記変換対象部分に対応する変換後の画像を特定し、前記自然言語文章において前記変換対象部分を前記変換後の画像に変換して表示させる第3のモジュールと、
を含む。
本発明の他の1つの観点において、画像と文字との混在文章を生成する装置は、
自然言語文章を入力順に読み込む第1のモジュールと、
変換コマンドの入力を受け付けて前記自然言語文章のうちの変換対象部分を特定する第2のモジュールと、
第3のモジュールであって、
前記変換対象部分が当該自然言語文章において初めて特定されたものである場合は、画像とその内容を表現する言葉とを対応付けて記憶した画像データベースを参照して前記変換対象部分に対応する複数の候補画像を表示させ、前記複数の候補画像から1つの候補画像の選択を受け付けて前記変換対象部分を前記1つの候補画像に変換して表示させ、前記変換対象部分と前記1つの候補画像とを対応付けて記憶し、
前記変換対象部分が当該自然言語文章において2回目以降に特定されたものである場合は、前記変換対象部分を記憶された前記1つの候補画像に変換して表示させる、
前記第3のモジュールと、
を含む。
混在文章生成装置20及びその周辺装置のブロック図である。 画像データベース30の一部を示す。 第1の実施形態に係る混在文章生成装置20のフローチャートである。 変換対象部分を画像に変換して表示させる処理の詳細を示すフローチャートである。 S110において混在文章生成装置20が読み込んだ自然言語文章の例を示す。 S120において自然言語文章から抽出された単語を示す。 S120において変換対象部分として特定された単語を示す。 S131において特定された変換後の画像を示す。 S132において生成された画像と文字との混在文章を示す。 S110において混在文章生成装置20が読み込んだ自然言語文章の例を示す。 S120において自然言語文章から抽出された単語を示す。 S120において変換対象部分として特定された単語を示す。 S131において特定された変換後の画像を示す。 S132において生成された画像と文字との混在文章を示す。 第2の実施形態に係る混在文章生成装置20のフローチャートである。 変換対象部分を画像に変換して表示させる処理の詳細を示すフローチャートである。 S210において入力順に読み込まれた自然言語文章の一部を示す。 S220において変換コマンドが入力されたときの表示を示す。 S232において表示される複数の候補画像を示す。 S233において変換対象部分をユーザーによって選択された1つの候補画像に変換して表示させた例を示す。 S220において変換コマンドが入力されたときの表示を示す。 S235において変換対象部分をメモリに記憶された1つの候補画像に変換して表示させた例を示す。 S210において入力順に読み込まれた自然言語文章の一部を示す。 S220において変換コマンドが入力されたときの表示を示す。 S232において表示される複数の候補画像を示す。 S233において変換対象部分をユーザーによって選択された1つの候補画像に変換して表示させた例を示す。 S220において変換コマンドが入力されたときの表示を示す。 S235において変換対象部分をメモリに記憶された1つの候補画像に変換して表示させた例を示す。 第3の実施形態において変換対象部分に対応する画像を特定する処理の詳細を示すフローチャートである。 S131aにおいて意味解析により要素の抽出が行われる変換対象部分の例を示す。 S131aにおいて抽出された要素を示す。 S131bにおいて抽出された画像を示す。 S131cにおいてサイズ変更又は変形された画像を示す。 S131dにおいて合成された画像を示す。 S131aにおいて意味解析により要素の抽出が行われる変換対象部分の例を示す。 S131aにおいて抽出された要素を示す。 S131bにおいて抽出された画像を示す。 S131cにおいてサイズ変更又は変形された画像を示す。 S131dにおいて合成された画像を示す。
以下、本発明の実施形態を、図面を参照しながら詳細に説明する。以下に説明される各実施形態は、本発明の一例を示すものであって、本発明の内容を限定するものではない。また、各実施形態で説明される構成及び動作のすべてが本発明の構成及び動作として必須であるとは限らない。なお、同一の構成要素には同一の参照符号を付して、重複する説明を省略する。
<1.実施形態の概要>
第1の実施形態において、混在文章生成装置20は、変換前の自然言語文章を読み込む(S110、図4A、図5A)。
混在文章生成装置20は、自然言語文章のうちの変換対象部分を特定する(S120、図4C、図5C)。
混在文章生成装置20は、画像データベース30を参照して変換対象部分に対応する変換後の画像を特定し(S131、図4D、図5D)、自然言語文章において変換対象部分を変換後の画像に変換して表示させる(S132、図4E、図5E)。
第2の実施形態において、混在文章生成装置20は、変換前の自然言語文章を入力順に読み込む(S210、図7A、図8A)。
混在文章生成装置20は、変換コマンドの入力を受け付けて自然言語文章のうちの変換対象部分を特定する(S220、S225、図7B、図8B)。
混在文章生成装置20は、変換対象部分が当該自然言語文章において初めて特定されたものである場合は、画像データベース30を参照して変換対象部分に対応する複数の候補画像を表示させ、複数の候補画像から1つの候補画像の選択を受け付けて、変換対象部分を選択された1つの候補画像に変換して表示させる(S231~S233、図7C、図7D、図8C、図8D)。また、変換対象部分と選択された1つの候補画像とを対応付けて記憶する(S234)。
混在文章生成装置20は、変換対象部分が当該自然言語文章において2回目以降に特定されたものである場合は、変換対象部分を記憶された1つの候補画像に変換して表示させる(S235、図7F、図8F)。
第3の実施形態は、変換後の画像を特定する構成をさらに発展させたものである。混在文章生成装置20は、変換対象部分の意味解析を行い、解析結果に基づいて画像の編集を行って変換後の画像を生成する(図9~図11E)。
<2.構成>
図1は、混在文章生成装置20及びその周辺装置のブロック図である。図1に示される構成は、第1~第3の実施形態で共通である。
混在文章生成装置20は、入力装置10、画像データベース30、及び表示装置40に接続されている。
入力装置10は、例えば、ユーザーが自然言語文章やコマンドを入力するためのキーボード、マウス、あるいはタッチパネルを含む。あるいは、入力装置10は、自然言語文章を図示しない他のコンピュータから受信する通信装置であってもよい。
画像データベース30は、画像と概念とを対応付けて記憶したデータベースである。画像には、写真及びイラストが含まれる。あるいは、2次元の画像を生成するための3次元モデルが含まれてもよい。概念とは、画像の内容を言葉で表現したものである。画像データベース30において画像と対応づけられた概念は、上位概念及び下位概念を含む多層構造を構成する。
図2は、画像データベース30の一部を示す。画像データベース30は、例えば、「男性」という上位概念に含まれる「少年、男の子」「若者、若い男性」「おじさん、中年の男性」「おじいさん、高齢の男性」といった下位概念ごとに、対応する画像を記憶している。画像に対応づけられる概念は、より詳細なインデックスを含んでもよい。インデックスは、例えば、眼鏡の有無、ひげの有無、喜怒哀楽を示す表情を含む。
図1を再び参照し、表示装置40は、例えば、生成された画像と文字との混在文章を表示するディスプレイ装置を含む。表示装置40の代わりに、画像と文字との混在文章を印刷するプリンターや、混在文章を他のコンピュータに送信する通信装置が用いられてもよい。
混在文章生成装置20は、図示しないプロセッサ、メモリ、ストレージ等を備えたコンピュータである。混在文章生成装置20は、1台のコンピュータで構成されてもよいし、複数のコンピュータで構成されてもよい。
混在文章生成装置20は、文章読み込みモジュール21と、変換対象特定モジュール22と、画像変換モジュール23と、を含む。それぞれのモジュールの機能は、ストレージに記憶されたプログラムがメモリにロードされ、プロセッサによって実行されることにより実現される。
文章読み込みモジュール21は本発明における「第1のモジュール」に相当し、変換前の自然言語文章を読み込む。文章読み込みモジュール21は、文章編集のためのアプリケーションソフトウエアで実現されてもよい。
変換対象特定モジュール22は本発明における「第2のモジュール」に相当し、自然言語文章のうちの変換対象となる変換対象部分を特定する。
画像変換モジュール23は本発明における「第3のモジュール」に相当し、画像データベース30にアクセスして、変換対象部分に対応する変換後の画像を特定する。さらに、画像変換モジュール23は、変換対象部分を変換後の画像に変換し、表示装置40に表示させる。
<3.第1の実施形態>
<3-1.動作>
図3Aは、第1の実施形態に係る混在文章生成装置20のフローチャートである。混在文章生成装置20は、以下の処理により、自然言語文章を読み込んで変換対象部分を画像に変換することにより、画像と文字との混在文章を生成する。
S110において、混在文章生成装置20は、入力装置10から入力される自然言語文章を読み込む。あるいは、混在文章生成装置20は入力装置10から入力されるコマンドによって指定された自然言語文章を図示しない記憶装置から読み込んでもよい。
S120において、混在文章生成装置20は、自然言語文章のうちの変換対象部分を特定する。
変換対象部分は、ユーザーが指定する場合にはその指定に従って特定される。ユーザーは、自然言語文章のうちの画像に変換したい部分に記号などのマーカーを付すことにより、変換対象部分を指定する。
あるいは、変換対象部分は、ユーザーの指定によらず、混在文章生成装置20によって何らかの基準で特定されてもよい。何らかの基準とは、例えば以下の基準である。
(1)読み込んだ自然言語文章に含まれる単語のうち、当該文章における主語としての出現頻度が閾値以上の単語を特定する。そのような出現頻度は、主語に限定された索引語頻度(term frequency)ということもできる。主語としての出現頻度を計算するには後述の意味解析が必要である。例えば、当該文章において主語として出現した「ぼくたち」「わたし」等の代名詞以外の単語が「コマ」「マリ」「坊ちゃん」の3種類であって、「コマ」と「マリ」の登場回数が閾値以上で、「坊ちゃん」の登場回数が閾値より少ない場合には、「コマ」と「マリ」が変換対象部分として特定される。
(2)読み込んだ自然言語文章に含まれる単語のうち、多数の文書を含む標本文書群において当該単語が出現する文書数が閾値以下の単語を特定する。そのような文書数を文書頻度(document frequency)という。例えば、当該文章において出現した多数の単語のうち、「ぼくたち」「わたし」は多くの文書で登場するありふれた単語であるのに対し、「コマ」「マリ」は閾値以下の少数の文書でしか登場しない単語である場合には、「コマ」と「マリ」が変換対象部分として特定される。
混在文章生成装置20によって変換対象部分を特定する基準は、(1)と(2)を組み合わせたものでもよいし、他の基準であってもよい。
S130において、混在文章生成装置20は、画像データベース30を参照して変換対象部分を画像に変換して表示させる。
S130の後、混在文章生成装置20は本フローチャートの処理を終了する。
図3Bは、変換対象部分を画像に変換して表示させる処理の詳細を示すフローチャートである。図3Bに示される処理は、図3AのS130のサブルーチンに相当する。
S131において、混在文章生成装置20は、S120で特定された変換対象部分に対応する変換後の画像を特定する。例えば、画像データベース30を変換対象部分に含まれる単語で検索することにより、変換後の画像を特定する。検索で複数の画像がヒットした場合には、詳細なインデックスを参照したり、変換対象部分の前後の言葉による検索結果を参照したりして、最も一致度の高い画像を変換後の画像として特定する。
画像の編集を行って変換対象部分に対応する画像を生成する場合については、第3の実施形態において説明する。
S132において、混在文章生成装置20は、当該自然言語文章の全体をスキャンし、変換対象部分を変換後の画像に変換して表示装置40に表示させる。
S132の後、混在文章生成装置20は、本フローチャートの処理を終了して図3Aに示される処理に戻る。
<3-2.具体例>
図4A~図4Eは、第1の実施形態において日本語の自然言語文章の一部を画像に変換する過程を示す。
図5A~図5Eは、第1の実施形態において英語の自然言語文章の一部を画像に変換する過程を示す。
図4A~図4Eと図5A~図5Eとでは、同じ内容の自然言語文章をもとに、画像と文字とが混在する文章を生成している。
図4A及び図5Aは、S110において混在文章生成装置20が読み込んだ自然言語文章の例を示す。図4A及び図5Aに示される自然言語文章は、ハンス・クリスチャン・アンデルセン(Hans Christian Andersen)作の「コマとマリ(The Sweethearts)」の一部である。
図4B及び図5Bは、S120において自然言語文章から抽出された単語を示す。単語とは、文章を構成する要素であって、言葉として意味をなす最小の単位をいう。日本語の場合は文節でもよい。
単語の抽出は、形態素解析と呼ばれる処理によって行われる。日本語のように単語と単語の区切りが表記上明確でない言語においては、図示しない辞書データベースを参照して区切りを判別することにより単語が抽出される。英語のように単語と単語の区切りが表記上明確である言語においては、その表記ルールに従って単語が抽出される。
図4C及び図5Cは、S120において変換対象部分として特定された単語を示す。ここでは「コマ(top)」「マリ(ball)」「ツバメ(swallow)」の3語が特定されたものとする。変換対象部分は、単語よりも大きい単位で特定されてもよい。例えば、変換対象部分として「男の子」「若い男性」「中年の男性」「高齢の男性」のように修飾語を含んだ名詞句が特定されてもよい。「羽織の若い男性」「犬を連れて散歩する少女」のように、より長い句や節でもよい。
図4D及び図5Dは、S131において特定された変換後の画像を示す。変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」の各々について1つの画像が特定されている。
図4E及び図5Eは、S132において生成された画像と文字との混在文章を示す。図4A及び図5Aに示される自然言語文章のうちの変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」の各々が画像に変換されている。
図4E及び図5Eに示されるように、当該文章において変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」がそれぞれ初めて出現した箇所では変換対象部分を変換後の画像に置き換えるとともに、アンダーラインなどの強調を付した変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」を画像に付記している。
当該文章において変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」がそれぞれ2回目以降に出現した箇所では変換対象部分を変換後の画像に置き換えており、変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」の付記はされていない。
<3-3.第1の実施形態の効果>
第1の実施形態によれば、画像と文字との混在文章を生成する混在文章生成装置20は、自然言語文章を読み込む文章読み込みモジュール21と、自然言語文章のうちの変換対象部分を特定する変換対象特定モジュール22と、画像とその内容を表現する言葉とを対応付けて記憶した画像データベース30を参照して変換対象部分に対応する変換後の画像を特定し、自然言語文章において変換対象部分を変換後の画像に変換して表示させる画像変換モジュール23と、を含む(図1~図3B参照)。これによれば、自然言語文章の一部を画像に変換して、言語の異なる人々の理解を助け、言語の違いを超えたコミュニケーションの可能性を拡げることのできる画像と文字との混在文章を自動的に生成できる。
第1の実施形態によれば、画像変換モジュール23は、自然言語文章において変換対象部分が初めて出現した箇所では変換対象部分を変換後の画像に置き換えるとともに変換対象部分を付記する(図4E及び図5E参照)。これによれば、変換対象部分と変換後の画像との対応関係が明確となり、混在文章の理解のしやすさが向上する。
画像変換モジュール23は、自然言語文章において変換対象部分が2回目以降に出現した箇所で変換対象部分を変換後の画像に置き換える。これによれば、簡潔なわかりやすい表示が可能となる。
<4.第2の実施形態>
<4-1.動作>
図6Aは、第2の実施形態に係る混在文章生成装置20のフローチャートである。混在文章生成装置20は、以下の処理により、自然言語文章を入力順に読み込んで変換対象部分を画像に変換することにより、画像と文字との混在文章を生成する。当該変換対象部分が当該自然言語文章において初めて特定されたものである場合は、複数の候補画像を表示させてユーザーが選択できるようにし、当該変換対象部分が当該自然言語文章において2回目以降に特定されたものである場合は、既に選択された候補画像に変換する。
S210において、混在文章生成装置20は、入力装置10から入力される自然言語文章を入力順に読み込む。通常は文章の先頭から順に入力されるが、入力済みの文章を遡って修正する場合もあり得るので必ずしも先頭からとは限らない。
S220において、混在文章生成装置20は、変換コマンドが入力されたか否かを判定する。変換コマンドはユーザーによって入力される。変換コマンドが入力されない場合(S220:NO)、混在文章生成装置20はS210に処理を戻して文章の読み込みを続ける。変換コマンドが入力された場合(S220:YES)、混在文章生成装置20は変換コマンドの入力を受け付け、S225に処理を進める。
S225において、混在文章生成装置20は、自然言語文章のうちの変換対象部分を特定する。変換対象部分はユーザーによって指定される。例えば、ユーザーが変換対象部分の始点と終点とを指定した場合には、その指定に従って変換対象部分が特定される。あるいは、ユーザーが自然言語文章のうちの任意の1箇所を指定した場合には、その1箇所が含まれる単語が変換対象部分として特定される。あるいは、その1箇所が含まれる句が変換対象部分として特定されるように設定されてもよいし、その1箇所が含まれる節が変換対象部分として特定されるように設定されてもよい。単語を特定する場合にはそのために形態素解析が行われることは上述の通りである。句や節を特定する場合には意味解析が行われる。
S230において、混在文章生成装置20は、画像データベース30を参照して変換対象部分を画像に変換して表示させる。
S230の後、混在文章生成装置20はS210に処理を戻して文章の読み込みを続ける。
図6Bは、変換対象部分を画像に変換して表示させる処理の詳細を示すフローチャートである。図6Bに示される処理は、図6AのS230のサブルーチンに相当する。
S231において、混在文章生成装置20は、S225で特定された変換対象部分が当該自然言語文章において初めて特定された部分であるか否かを判定する。変換対象部分が初めて特定された部分である場合(S231:YES)、混在文章生成装置20はS232に処理を進める。
S232において、混在文章生成装置20は、変換対象部分に対応する複数の候補画像を表示させる。例えば、「コマ(top)」という変換対象部分を用いた画像データベース30の検索で複数の画像がヒットした場合に、詳細なインデックスを参照したり、変換対象部分の前後の言葉による検索結果を参照したりして、一致度の高い順に、複数の候補画像を表示させる。表示される候補画像の数には制限が設けられてもよい。
画像の編集を行って変換対象部分に対応する画像を生成する場合については、第3の実施形態において説明する。
S233において、混在文章生成装置20は、ユーザーによる候補画像の選択を受け付け、変換対象部分を選択された1つの候補画像に変換して、表示装置40に表示させる。
S234において、混在文章生成装置20は、変換対象部分と選択された1つの候補画像とを対応付けて図示しないメモリに記憶させる。
S234の後、混在文章生成装置20は、本フローチャートの処理を終了して図6Aに示される処理に戻る。
変換対象部分が当該自然言語文章において2回目以降に特定された部分である場合(S231:NO)、混在文章生成装置20はS235に処理を進める。
S235において、混在文章生成装置20は、変換対象部分をS234で記憶された1つの候補画像に変換して、表示装置40に表示させる。
S235の後、混在文章生成装置20は、本フローチャートの処理を終了して図6Aに示される処理に戻る。
<4-2.具体例>
図7A~図7Fは、第2の実施形態において日本語の自然言語文章の一部を画像に変換する過程を示す。
図8A~図8Fは、第2の実施形態において英語の自然言語文章の一部を画像に変換する過程を示す。
図7A~図7Fと図8A~図8Fとでは、同じ内容の自然言語文章をもとに、画像と文字とが混在する文章を生成している。
図7A及び図8Aは、S210において入力順に読み込まれた自然言語文章の一部を示す。ここでは例として、図4A及び図5Aに示される自然言語文章が先頭から入力されている。
図7B及び図8Bは、S220において変換コマンドが入力されたときの表示を示す。変換対象部分として例えば「コマ(top)」という単語が指定されると、「コマ(top)」に二重線などの強調が付されて表示される。
図7C及び図8Cは、S232において表示される複数の候補画像を示す。当該変換対象部分が当該自然言語文章において初めて特定された部分である場合は、例えば「コマ(top)」という単語に対応する候補画像1~3が表示される。
図7D及び図8Dは、S233において変換対象部分をユーザーによって選択された1つの候補画像に変換して表示させた例を示す。例えば、候補画像1~3のうちの候補画像1が選択された場合に、候補画像2及び3の表示は消えて、候補画像1が表示される。「コマ(top)」という単語と候補画像1との対応関係はメモリに記憶される。
図7D及び図8Dに示されるように、当該文章において変換対象部分「コマ(top)」が初めて出現した箇所では変換対象部分を変換後の画像に置き換えるとともに、アンダーラインなどの強調を付した変換対象部分「コマ(top)」を画像に付記している。但し、図7D及び図8Dに示される変換対象部分が初めて出現したことを示す強調の表示は、図7B及び図8Bに示される変換対象部分として指定されたことを示す強調の表示とは異なる表示形式が用いられる。
図7E及び図8Eは、S220において変換コマンドが入力されたときの表示を示す。変換対象部分として例えば「コマ(top)」という単語が指定されると、「コマ(top)」に二重線などの強調が付されて表示される。図7E及び図8Eに示されるように、「コマ(top)」は図7B及び図8Bにおいて一度指定された言葉である。このような場合、一度指定された言葉が再度入力されたことを変換コマンドの入力とみなすことにして、ユーザーによる変換コマンドの入力操作を軽減してもよい。
図7F及び図8Fは、S235において変換対象部分をメモリに記憶された1つの候補画像に変換して表示させた例を示す。当該文章において変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」がそれぞれ2回目以降に出現した箇所では変換対象部分を変換後の画像に置き換えており、変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」の付記はされていない。
<4-3.第2の実施形態の効果>
第2の実施形態によれば、画像と文字との混在文章を生成する混在文章生成装置20は、自然言語文章を入力順に読み込む文章読み込みモジュール21と、変換コマンドの入力を受け付けて自然言語文章のうちの変換対象部分を特定する変換対象特定モジュール22と、変換対象部分が当該自然言語文章において初めて特定されたものである場合は、画像とその内容を表現する言葉とを対応付けて記憶した画像データベース30を参照して変換対象部分に対応する複数の候補画像を表示させ、複数の候補画像から1つの候補画像の選択を受け付けて、変換対象部分を選択された1つの候補画像に変換して表示させ、変換対象部分と選択された1つの候補画像とを対応付けて記憶し、変換対象部分が当該自然言語文章において2回目以降に特定されたものである場合は、変換対象部分を記憶された1つの候補画像に変換して表示させる画像変換モジュール23と、を含む(図1、図2、図6A及び図6B参照)。これによれば、自然言語文章の一部を画像に変換して、言語の異なる人々の理解を助け、言語の違いを超えたコミュニケーションの可能性を拡げることのできる画像と文字との混在文章を、ユーザーがタイピングしながら生成できる。変換対象部分が当該自然言語文章において初めて特定されたものである場合は複数の候補画像を表示させて1つの候補画像の選択を受け付けることで、ユーザーが適切な画像を選択できる。変換対象部分が当該自然言語文章において2回目以降に特定されたものである場合は変換対象部分を記憶された1つの候補画像に変換することで、ユーザーによる選択操作を軽減でき、1つの自然言語文章の中で同じ変換対象部分については同じ画像に変換することで対応関係を統一できる。
第2の実施形態によれば、画像変換モジュール23は、自然言語文章において変換対象部分が初めて出現した箇所では変換対象部分を選択された1つの候補画像に置き換えるとともに変換対象部分を付記する(図7F及び図8F参照)。これによれば、変換対象部分と変換後の画像との対応関係が明確となり、混在文章の理解のしやすさが向上する。
画像変換モジュール23は、自然言語文章において変換対象部分が2回目以降に出現した箇所で変換対象部分を選択された1つの候補画像に置き換える。これによれば、簡潔なわかりやすい表示が可能となる。
<5.第3の実施形態>
<5-1.動作>
図9は、第3の実施形態において変換対象部分に対応する画像を特定する処理の詳細を示すフローチャートである。第3の実施形態においては、変換対象部分に対応する画像が画像データベース30に存在しない場合に、画像データベース30に存在する画像の編集を行って変換対象部分に対応する画像を生成する。
図9に示される処理は、図3BのS131のサブルーチンに相当する。あるいは、図6BのS232において変換対象部分に対応する複数の候補画像を表示させるために、同様の処理が行われてもよい。
S131aにおいて、混在文章生成装置20は、変換対象部分の意味解析を行い、要素を抽出する。ここでいう要素は、単語でもよいし、句でもよい。意味解析は、品詞などの単語の属性と、構文のルールと、に従って、主語及び述語の関係や、修飾及び被修飾の関係などを解析する処理である。
S131bにおいて、混在文章生成装置20は、S131aで抽出された要素ごとに画像を抽出する。S131bにおいては、第1及び第2の実施形態と同様に画像データベース30に含まれる画像をそのまま抽出する。
S131cにおいて、混在文章生成装置20は、画像のサイズ変更及び画像の変形の一方又は両方を行う。
画像のサイズ変更は、S131dにおいて画像の合成を行う際に縮尺を一致させるための拡大又は縮小の処理である。
画像の変形は、画像データベース30から抽出された画像の一部を加工する処理である。あるいは、画像データベース30が3次元モデルのデータを含む場合に、その3次元モデルの加工や、その3次元モデルから2次元の画像を生成するための視点の変更が行われても良い。
S131dにおいて、混在文章生成装置20は、画像の合成を行う。画像の合成は、S131aで複数の要素が抽出された場合に、S131bで抽出された画像、又はS131cでサイズ変更又は変形された画像を合成して、1枚の画像を生成する処理である。
S131c及びS131dにおいては、S131aにおいて行われた意味解析の結果に従い、変換対象部分に対応する画像が生成される。そのような画像を生成するシステムとして、深層学習(deep learning)を用いた敵対的生成ネットワーク(generative adversarial networks)が知られている。敵対的生成ネットワークは、多数の画像を生成する学習モデルである生成ネットワークと、画像の正否を判定する学習モデルである識別ネットワークという2つのニューラルネットワークから構成される。生成ネットワークは識別ネットワークから正判定を得ようと学習し、識別ネットワークはより正確に判定しようと学習する。S131c及びS131dの代わりに、そのような人工知能が用いられてもよい。
S131dの後、混在文章生成装置20は、本フローチャートの処理を終了し、図3Bに示される処理に戻る。
<5-2.具体例>
図10A~図10E及び図11A~図11Eは、第3の実施形態において画像の編集を行って変換対象部分に対応する画像を生成する過程を示す。
図10A及び図11Aは、S131aにおいて意味解析により要素の抽出が行われる変換対象部分の例を示す。
図10Aにおいては「羽織の若い男性」を変換対象部分としている。「羽織の若い男性」に対応する画像は画像データベース30に存在しないものとする。
図11Aにおいては「犬を連れて散歩する少女」を変換対象部分としている。「犬を連れて散歩する少女」に対応する画像は画像データベース30に存在しないものとする。
図10B及び図11Bは、S131aにおいて抽出された要素を示す。
図10Bにおいては修飾語である「羽織」、修飾語である「若い」、及び主語である「男性」が抽出されている。あるいは、修飾語である「羽織」と、主語である名詞句「若い男性」が抽出されてもよい。
図11Bにおいては修飾語である「犬」、修飾語である「連れて」、修飾語である「散歩する」、及び主語である「少女」が抽出されている。
図10C及び図11Cは、S131bにおいて抽出された画像を示す。
図10Cにおいては「羽織」及び「若い男性」に対応する画像が抽出されている。画像データベース30から「若い男性」に対応する画像を抽出するために、「男性」の複数の画像を抽出した後、さらに「若い」で絞り込んでもよい。
図11Cにおいては「犬」、「連れて」、及び「少女」に対応する画像が抽出されている。「連れて」に対応する画像としては犬用の引綱(dog lead)の画像が抽出されている。「散歩する」に対応する画像は画像データベース30に存在しないものとする。
図10D及び図11Dは、S131cにおいてサイズ変更又は変形された画像を示す。
図10Dにおいては、「羽織」及び「若い男性」に対応する画像の縮尺が一致するようにこれらの画像のサイズが変更されている。
図11Dにおいては、「少女」に対応する画像が「散歩する少女」の画像となるように、「少女」に対応する画像が変形されている。
図10E及び図11Eは、S131dにおいて合成された画像を示す。
図10Eにおいては、「羽織」の上に「若い男性」の顔が位置するようにこれらの画像が組み合わされている。
図11Eにおいては、「犬」の首が引綱の一端に接続され、「少女」の手が引綱の他端を握るような位置関係にこれらの画像が組み合わされている。
<5-3.第3の実施形態の効果>
第3の実施形態によれば、画像変換モジュール23は、変換対象部分の意味解析を行い、解析結果に基づいて画像の編集を行って変換後の画像を生成する。これによれば、変換対象部分に対応する画像が画像データベース30に存在しない場合でも、画像データベース30に存在する画像を編集して適切な画像を生成し、画像と文字との混在文章を生成できる。

Claims (3)

  1. 自然言語文章を入力順に読み込む第1のモジュールと、
    変換コマンドが入力されるごとに、前記変換コマンドの入力を受け付けて前記自然言語文章のうちの変換対象部分をユーザーの指定に従って特定する第2のモジュールと、
    第3のモジュールであって、
    前記変換対象部分が当該自然言語文章において初めて特定されたものである場合は、画像とその内容を表現する言葉とを対応付けて記憶した画像データベースを参照して前記変換対象部分に対応する複数の候補画像を表示させ、前記複数の候補画像から1つの候補画像の選択を受け付けて前記変換対象部分を前記1つの候補画像に変換して表示させ、前記変換対象部分と前記1つの候補画像とを対応付けて記憶し、
    前記変換対象部分が当該自然言語文章において2回目以降に特定されたものである場合は、前記変換対象部分を記憶された前記1つの候補画像に変換して表示させる、
    前記第3のモジュールと、
    を含
    前記第2のモジュールは、前記ユーザーが始点と終点を指定した場合に、前記始点から前記終点までを前記変換対象部分として特定する、
    画像と文字との混在文章を生成する装置。
  2. 自然言語文章を入力順に読み込む第1のモジュールと、
    変換コマンドが入力されるごとに、前記変換コマンドの入力を受け付けて前記自然言語文章のうちの変換対象部分をユーザーの指定に従って特定する第2のモジュールと、
    第3のモジュールであって、
    前記変換対象部分が当該自然言語文章において初めて特定されたものである場合は、画像とその内容を表現する言葉とを対応付けて記憶した画像データベースを参照して前記変換対象部分に対応する複数の候補画像を表示させ、前記複数の候補画像から1つの候補画像の選択を受け付けて前記変換対象部分を前記1つの候補画像に変換して表示させ、前記変換対象部分と前記1つの候補画像とを対応付けて記憶し、
    前記変換対象部分が当該自然言語文章において2回目以降に特定されたものである場合は、前記変換対象部分を記憶された前記1つの候補画像に変換して表示させる、
    前記第3のモジュールと、
    を含み、
    前記第2のモジュールは、前記ユーザーが前記自然言語文章のうちの1箇所を指定した場合に、その1箇所が含まれる単語、句、又は節を、前記変換対象部分として特定する、
    画像と文字との混在文章を生成する装置。
  3. 請求項1又は請求項2において、
    前記第3のモジュールは、
    前記自然言語文章において前記変換対象部分が初めて出現した箇所では前記変換対象部分を前記1つの候補画像に置き換えるとともに前記変換対象部分を付記し、
    前記自然言語文章において前記変換対象部分が2回目以降に出現した箇所で前記変換対象部分を前記1つの候補画像に置き換える、
    画像と文字との混在文章を生成する装置。
JP2022566868A 2020-12-02 2021-11-24 画像と文字との混在文章を生成する装置 Active JP7418761B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020209704 2020-12-02
JP2020209704 2020-12-02
PCT/JP2021/043079 WO2022118720A1 (ja) 2020-12-02 2021-11-24 画像と文字との混在文章を生成する装置

Publications (3)

Publication Number Publication Date
JPWO2022118720A1 JPWO2022118720A1 (ja) 2022-06-09
JPWO2022118720A5 JPWO2022118720A5 (ja) 2023-01-26
JP7418761B2 true JP7418761B2 (ja) 2024-01-22

Family

ID=81853543

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022566868A Active JP7418761B2 (ja) 2020-12-02 2021-11-24 画像と文字との混在文章を生成する装置

Country Status (3)

Country Link
US (1) US20230169257A1 (ja)
JP (1) JP7418761B2 (ja)
WO (1) WO2022118720A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005176083A (ja) 2003-12-12 2005-06-30 National Institute Of Information & Communication Technology 字幕番組データ制作システムにおける自動ルビ付与装置
JP2008287517A (ja) 2007-05-17 2008-11-27 National Institute Of Information & Communication Technology 強調表示装置及びプログラム
JP2015036886A (ja) 2013-08-13 2015-02-23 ソニー株式会社 情報処理装置、記憶媒体、および方法
JP2018077794A (ja) 2016-11-11 2018-05-17 京セラドキュメントソリューションズ株式会社 画像処理装置、及び画像形成装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005176083A (ja) 2003-12-12 2005-06-30 National Institute Of Information & Communication Technology 字幕番組データ制作システムにおける自動ルビ付与装置
JP2008287517A (ja) 2007-05-17 2008-11-27 National Institute Of Information & Communication Technology 強調表示装置及びプログラム
JP2015036886A (ja) 2013-08-13 2015-02-23 ソニー株式会社 情報処理装置、記憶媒体、および方法
JP2018077794A (ja) 2016-11-11 2018-05-17 京セラドキュメントソリューションズ株式会社 画像処理装置、及び画像形成装置

Also Published As

Publication number Publication date
US20230169257A1 (en) 2023-06-01
JPWO2022118720A1 (ja) 2022-06-09
WO2022118720A1 (ja) 2022-06-09

Similar Documents

Publication Publication Date Title
Daud et al. Urdu language processing: a survey
JP3959180B2 (ja) 通信翻訳装置
Sugandhi et al. Sign language generation system based on Indian sign language grammar
US8600930B2 (en) Information processing device and information processing method
US6393389B1 (en) Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
JP4448450B2 (ja) 多モードの音声言語翻訳及び表示
Morrissey Data-driven machine translation for sign languages
Pennell et al. Normalization of text messages for text-to-speech
KR19990078364A (ko) 문서처리장치 및 그의 방법
US20110119046A1 (en) Information processing device and information processing method
US20220012437A1 (en) Translating method using visually represented elements, and device therefor
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
CN100361124C (zh) 用于词分析的系统和方法
Azmi et al. Universal web accessibility and the challenge to integrate informal Arabic users: a case study
JP3899414B2 (ja) 教師データ作成装置およびプログラム、ならびに言語解析処理装置およびプログラム
JPH05120324A (ja) 言語処理方式
JP7418761B2 (ja) 画像と文字との混在文章を生成する装置
JP2997469B2 (ja) 自然言語理解方法および情報検索装置
CN115034209A (zh) 文本分析方法、装置、电子设备以及存储介质
JP2004240859A (ja) 言い換えシステム
Lane et al. Interactive word completion for morphologically complex languages
KR20220084915A (ko) 클라우드 기반 문법 교정 서비스 제공 시스템
JP2005250525A (ja) 漢文解析支援装置及び異言語文処理装置及び翻訳プログラム
JP4043176B2 (ja) 自然言語処理装置
JP5632213B2 (ja) 機械翻訳装置及び機械翻訳プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221104

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231226

R150 Certificate of patent or registration of utility model

Ref document number: 7418761

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150