JP5337705B2 - 中国語バナーの生成 - Google Patents

中国語バナーの生成 Download PDF

Info

Publication number
JP5337705B2
JP5337705B2 JP2009543241A JP2009543241A JP5337705B2 JP 5337705 B2 JP5337705 B2 JP 5337705B2 JP 2009543241 A JP2009543241 A JP 2009543241A JP 2009543241 A JP2009543241 A JP 2009543241A JP 5337705 B2 JP5337705 B2 JP 5337705B2
Authority
JP
Japan
Prior art keywords
banner
existing
chinese
banners
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009543241A
Other languages
English (en)
Other versions
JP2010515123A (ja
Inventor
ジャン ロン
ツゥォウ ミン
ハオ ス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2010515123A publication Critical patent/JP2010515123A/ja
Application granted granted Critical
Publication of JP5337705B2 publication Critical patent/JP5337705B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、中国語のバナーの生成に関する。
人工知能は、知能機械、特にコンピュータプログラムを作成する科学および工学である。人工知能のアプリケーションは、ゲームプレイや音声認識を含む。
(ピンインで)「dui4−lian2」と呼ばれる中国語の対句(antithetical couplets)は、中国の文化遺産である。対句の教示は、何千年もの間、繁体字中国語(traditional Chinese)の教示に関する重要な方法であった。典型的には、対句は、一般的にドアの横や広い玄関に置かれる縦の赤い幕に、書として書かれた2つのフレーズ(phrases)または文(sentences)を含む。このような対句は、具体的には、結婚式や春節、すなわち中国の新年などの特別な行事の時に掲示される。他のタイプの対句は、誕生日の対句、挽歌対句(elegiac couplets)、装飾対句(decoration couplets)、専門家または他の人に関する対句などを含む。
中国語の対句は簡略化された言葉を使用するが、深い意味、時には曖昧な意味または二重の意味を有する。対句を構成する2つの文は、具体的には「上の句(first scroll sentence)」と「下の句(second scroll sentence)」と呼ばれる。
Figure 0005337705
Figure 0005337705
対句は、異なる長さにすることもできる。短い対句は、1つまたは2つの文字を含むが、長い対句は数百の文字に達することもある。対句はさらに、様々な形式または相対的な意味を有することもある。例えば、ある形式は、同じ意味を有する上の句と下の句とを含むこともある。他の形式は、反対の意味を有する句を含むこともある。しかし、どのような形式であっても、中国語の対句は、一般に以下のような規則、すなわち原理に従う。
原理1:対句の2つの句は、一般には単語の数および漢字の総数が同じである。それぞれの漢字は、発話するときに1音節である。中国語の単語は、1つ、2つ、またはそれ以上の文字を有することもあり、そのため、1音節、2音節またはそれ以上の音節で発音されることがある。上の句の各々の単語は、下の句の対応する単語と同じ数の漢字にすべきである。
原理2:音(tone)(例えば、中国語の「Ping」(平)や「Ze」(仄))は、一般的に一致し、調和している。伝統的な慣習では、上の句の最後の文字を、「仄」(中国語の「Ze」という音)にすべきである。この音は、急に下がる音で発音される。下の句の最後の文字は、「平」(中国語の「ping」という音)にすべきである。この音は、平らな音で発音される。
原理3:下の句の単語の品詞は、上の句の対応する単語と同一にすべきである。言い換えると、上の句の名詞は、下の句の名詞に対応すべきである。同じことが、動詞、形容詞、数の分類詞、副詞などについても言えるであろう。さらに、対応する単語は、上の句と下の句とにおいて同じ位置になければならない。
原理4:下の句の内容(contents)は、上の句と相互に関連するものにすべきであり、その内容を、上の句と下の句とにおいて繰り返すことはできない。
場合によっては、対句は、一般にドアの上に縦方向の対句用の垂幕の間に水平に配置される、1つのバナー(banner)(ストリーマ(streamer)としても知られる)を伴う。通常は4つの漢字で構成されるフレーズであるバナーは、対句と共に貼り付けて、対句の意味を要約、強調、補足するのに使用される。バナーの長さは、2文字から5文字または6文字まで変えられるが、最も代表的なバナーは4文字である。バナーの基本的な要件は、バナーの意味が、上の句と下の句の意味に適合しなければならないということである。例えば、対句
Figure 0005337705
(文字通り訳すと、「冬が去り、山は鮮やかで川は美しい。春が来て、鳥は唄い、花は香る」)のバナーは、「大地回春」である。
しかし、どのような形式であっても、中国語の対句のバナーは、一般に、以下のような規則、すなわち原理に従う。
原理1:バナーは、一般に4文字の漢字で構成される。まれに、バナーは2文字、3文字、5文字またはそれ以上の文字で構成される。各々の漢字は、一般に、発話するときに1音節である。
原理2:音は、一般的に一致し、調和している。しかし、通常は、バナーと上の句または下の句との間の対応に関して、厳しい要件はない。
原理3:バナーの内容は、上の句および下の句と相互に関連するものにすべきであり、その内容は、上の句と下の句とにおいて繰り返すことはできない。
中国語圏の人々は、新しい対句やバナーの作成を娯楽の形として楽しむことが多い。レクレーションの1つの形では、ある人が上の句を作り、他の人に即座に適切な下の句を作らせてみる。さらに、時には、上の句および下の句を与えた後で、バナーを作らせてみる。したがって、バナーを作ることは、下の句を作るのと同じように、参加者の言語能力、創造力、および他の知力が試されるのである。
一般に、(例えば、上の句を所与とする)下の句の自動作成、および/または(例えば、上の句と下の句とを所与とする)バナーの自動作成は、人工知能の適切かつより注目されるアプリケーションとなるであろう。
上記の議論は、単に一般的な背景技術の情報として提供されたものであり、特許請求される対象の範囲を決定する際の助けとして使用されることは意図されていない。
本明細書において開示される実施形態は、中国語の対句の上の句と下の句とを所与として、バナーを自動的に生成するための方法に関する。上の句および/または下の句を、自動のコンピュータシステムまたは人によって生成し(例えば、手動で生成し、その後入力として自動バナー生成システムに提供する)、あるいは任意のソース(例えば、本)から取得して、入力として提供することができる。一実施形態では、情報取出しプロセスを利用して、上の句と下の句とに最も合致するバナーの候補を識別する。一実施形態では、候補バナーは、自動的に生成される。一実施形態では、バナー検索/生成プロセスから得られたバナーの候補をランク付けするために、ランキングモデルが適用される。その後、ランク付けされたバナーの候補から1つまたは複数のバナーが選択される。
この「課題を解決するための手段」は、以下の「発明を実施するための形態」でさらに説明される概念の選択を簡略した形で紹介するために提供される。この「課題を解決するための手段」は、特許請求される対象の主要な特徴または本質的な特徴を特定することは意図されておらず、特許請求される対象の範囲を決定する際の助けとして使用されることも意図されていない。特許請求される対象は、背景技術で指摘された不利点の一部または全てを解決する実装には限定されない。
コンピューティング環境のブロック図である。 バナーを生成するプロセスの概観を示す図である。 バナー分類法の構築に関連するステップを示すフローチャートである。 所与の対句に対して最も合致した候補バナーを見つけることに関連するステップを示すフローチャートである。 バナーの生成に関連するステップを示すフローチャートである。
バナー生成システムおよび方法の実施形態を述べる前に、本明細書内で説明される様々な実施形態を実施するために使用することができるコンピューティング装置を大まかに説明することが有益であろう。図1は、本実施形態を実装することができる適切なコンピューティングシステム環境100の例を図示する。コンピューティングシステム環境100は、適切なコンピューティング環境の一例にすぎず、使用または機能性の範囲に関して限定を示唆することは意図されていない。また、コンピューティング環境100は、例示的なコンピューティング環境100で図示されたコンポーネントのいずれか1つまたは組み合わせに対して、いかなる依存性または要件を有するものと解釈されるべきではない。
実施形態は、多数の汎用または専用コンピューティングシステム環境または構成で動作可能である。本明細書において開示される実施形態で使用するのに適した周知のコンピューティングシステム、環境、および/または構成の例には、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、電話システム、上述のシステムまたは装置のいずれかを含む分散コンピューティング環境などが含まれるが、これらには限定されない。
実施形態は、プログラムモジュールなど、コンピュータによって実行されるコンピュータ実行可能命令の一般的な文脈で説明されうる。一般に、プログラムモジュールは、特定のタスクを実行するか、または特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。当業者は、本明細書において提供される説明または図を、任意の形式のコンピュータ読み取り可能媒体に対して書き込むことができるプロセッサ実行可能命令として実装することができる。
実施形態を、通信ネットワークを介してリンクされるリモート処理装置によってタスクが実行される分散コンピューティング環境で実施することもできる。分散コンピューティング環境では、プログラムモジュールを、メモリ記憶装置を含むローカルコンピュータ記憶媒体とリモートコンピュータ記憶媒体の両方に配置することができる。
図1を参照すると、実施形態を実装するための例示的なシステムは、コンピュータ110の形式の汎用コンピューティング装置を含む。コンピュータ110のコンポーネントは、処理ユニット120、システムメモリ130、および、システムメモリを含む様々なシステムコンポーネントを処理ユニット120に結合するシステムバス121を含むことがあるが、これらには限定されない。システムバス121は、メモリバスもしくはメモリコントローラ、周辺バス、および様々なバスアーキテクチャのいずれかを使用するローカルバスを含む、いくつかのタイプのバス構造のいずれかとすることができる。限定ではなく例として、このようなアーキテクチャには、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Elecronics Standards Association)ローカルバス、およびMezzanineバスとしても知られるPCI(Peripheral Component Interconnect)バスが含まれる。
コンピュータ110は、典型的に、様々なコンピュータ読み取り可能媒体を含む。コンピュータ読み取り可能媒体は、コンピュータ110によってアクセス可能で、揮発性媒体および不揮発性媒体、取り外し可能な媒体および取り外し不可能な媒体の両方を含む、任意の利用可能な媒体とすることができる。限定ではなく例として、コンピュータ読み取り可能媒体は、コンピュータ記憶媒体および通信媒体を備えることができる。コンピュータ記憶媒体は、コンピュータ読み取り可能命令、データ構造、プログラムモジュール、または他のデータなどの情報を記憶するための任意の方法または技術で実装される揮発性媒体および不揮発性媒体、取り外し可能な媒体および取り外し不可能な媒体の両方を含む。コンピュータ記憶媒体には、RAM、ROM、EEPROM、フラッシュメモリもしくは他のメモリ技術、CD−ROM、DVDもしくは他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージもしくは他の磁気ストレージ装置、または所望の情報を記憶するのに使用でき、コンピュータ110によりアクセス可能な任意の他の媒体が含まれるが、これらには限定されない。通信媒体は、典型的に、搬送波などの変調データ信号または他のトランスポート機構で、コンピュータ読み取り可能命令、データ構造、プログラムモジュール、または他のデータを具現化し、任意の情報配信媒体を含む。用語「変調データ信号」は、1つまたは複数の特徴のセットを有する信号、または信号内で情報を符号化するような手法で変換された信号のことである。限定ではなく例として、通信媒体には、有線ネットワークもしくは直接有線接続などの有線媒体、ならびに、音響、RF、赤外線などの無線媒体および他の無線媒体が含まれるが、これらには限定されない。上述の任意の組み合わせも、コンピュータ読み取り可能媒体の範囲に含まれるべきである。
システムメモリ130は、ROM131およびRAM132などの揮発性および/または不揮発性メモリの形のコンピュータ記憶媒体を含む。起動時などに、コンピュータ110内の要素間で情報を転送するのを助ける基本ルーチンを含むBIOS(基本入出力システム)133は、典型的に、ROM131に格納される。RAM132は、典型的に、処理ユニット120によって即座にアクセス可能な、および/または今動作中のデータおよび/またはプログラムモジュールを含む。限定ではなく例として、図1は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、プログラムデータ137を図示しているが、これらには限定されない。プログラム135は、実施形態が本明細書内で詳細に説明されるバナー生成システムを含むことがあるように示されている。これは、環境100でこのようなシステムを実装することができるという一例にすぎない。他の実装(例えば、プログラム145または185の一部としての実装)も、本発明の範囲内であると考えられるべきである。
さらに、コンピュータ110は、他の取り外し可能/取り外し不可能な、揮発性/不揮発性のコンピュータ記憶媒体を含むこともできる。単に例として、図1は、取り外し不可能な不揮発性磁気媒体との間で読み書きをするハードディスクドライブ141、取り外し可能な不揮発性磁気ディスク152との間で読み書きをする磁気ディスクドライブ151、CD ROMまたは他の光媒体などの取り外し可能な不揮発性光ディスク156との間で読み書きをする光ディスクドライブ155を図示している。例示的なオペレーティング環境で使用できる他の取り外し可能/取り外し不可能な揮発性/不揮発性のコンピュータ記憶媒体には、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、固体RAM、固体ROMなどが含まれるが、これらには限定されない。ハードディスクドライブ141は、典型的に、インタフェース140などの取り外し不可能なメモリインタフェースを通じてシステムバス121に接続され、光ディスクドライブ155は、典型的に、インタフェース150などの取り外し可能なメモリインタフェースによってシステムバス121に接続される。
上述され、図1で図示されているドライブ、および関連するコンピュータ記憶媒体は、コンピュータ110のコンピュータ読み取り可能命令、データ構造、プログラムモジュール、および他のデータのストレージを提供する。図1では、例えば、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を格納するように図示されている。これらのコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同じコンポーネントとすることも、異なるコンポーネントとすることもできることに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147は、少なくともこれらが異なるコピーであることを示すために、本明細書では異なる数字が与えられている。
ユーザは、キーボード162、マイクロフォン163、およびマウス、トラックボールもしくはタッチパッドなどのポインティングデバイス161などの入力装置を介して、コマンドおよび情報をコンピュータ110に入力することができる。他の入力装置(図示せず)には、ジョイスティック、ゲームパッド、パラボラアンテナ、スキャナなどが含まれることがある。これらおよび他の入力装置は、システムバスに結合されるユーザ入力インタフェース160を介して処理ユニット120に接続されることが多いが、他のインタフェース、およびパラレルポート、ゲームポート、もしくはUSBなどの他のバス構造により接続されてもよい。モニタ191または他のタイプのディスプレイ装置も、ビデオインタフェース190などのインタフェースを介してシステムバス121に接続される。モニタに加えて、コンピュータは、スピーカ197やプリンタ196など、出力周辺インタフェース190を介して接続される他の周辺出力装置も含むことができる。
コンピュータ110は、リモートコンピュータ180などの1つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク環境で動作することができる。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルド装置、サーバ、ルータ、ネットワークPC、ピア装置、または他の共通のネットワークノードとすることができ、典型的には、コンピュータ110に関して上述した要素の多くまたは全てを含むことができる。図1に示された論理接続は、LAN(ローカルエリアネットワーク)171およびWAN(ワイドエリアネットワーク)173を含むが、他のネットワークを含んでもよい。このようなネットワーク環境は、オフィス、企業規模のコンピュータネットワーク、イントラネット、インターネットなどでは一般的である。
LANネットワーク環境で使用されるとき、コンピュータ110は、ネットワークインタフェースまたはアダプタ170を介してLAN171に接続される。WANネットワーク環境で使用されるとき、コンピュータ110は、典型的に、モデム172、またはインターネットなどのWAN173上で通信を確立するための他の手段を含む。内蔵または外付けとすることができるモデム172は、ユーザ入力インタフェース160または他の適切な機構を介してシステムバス121に接続されてもよい。ネットワーク環境では、コンピュータ110に関連して示されているプログラムモジュールまたはその一部は、リモートメモリストレージ装置内に格納されてもよい。限定ではなく例として、図1では、リモートアプリケーションプログラム185は、リモートコンピュータ180に存在するように図示されている。示されているネットワーク接続は例示であって、コンピュータ間の通信リンクを確立する他の手段を使用してもよいことが理解されよう。
図2は、バナーを生成するためのプロセスの概略図である。4つの文字を有するバナーが最も一般的である。したがって、本説明における実施形態では、4文字のバナーに関して説明する。しかしながら、本発明の範囲はそれには限定されない。同一または同様の概念を、4文字以外の文字を有するバナーに関しても容易に適用することができる。
ブロック202に従って、上の句と下の句が入力として提供される。ブロック204および206に従って、2つの異なる方法を利用してバナー候補を生成する。ブロック208に従って、例えば、生成された候補からN個の最も良いバナーの選択をサポートするためにランキングモデルが適用される。1つまたは複数の出力バナー210が、N個の最も良いバナーから選択される。
ブロック204で示されるように、複数のバナー候補は、情報の取出し(information retrieval)に基づくアプローチを使用して作成される。少なくとも、共通バナーの反復頻度が比較的高いという理由から、既存のバナーのデータベースを取り出すことによってバナー候補を作成することには価値があると言える。
一実施形態では、検索プロセスに備えて、外部ソース(例えば、本、インターネットなど)から収集された既存のバナーによって、バナーの分類法(taxonomy)が構築される。次に、所与の対句について、最も合致する候補バナーのセットを作成するために、対句の句(上の句および下の句)を用いて分類法が検索される。
図3は、バナー分類法の構築に関連するステップを示すフローチャートである。ステップ302では、4文字のバナーが収集される。各バナーは、具体的には、例えば、以前バナーとして使用されたことがあるフレーズ、イディオム、および/または高い頻度で見られる4文字のフレーズなどのフレーズを使用する。当業者には、これらのタイプのフレーズを、多種多様なソースから取得できることが理解されよう。本発明の範囲は、1つの特定のソースまたは複数のソースの組み合わせには限定されない。
ステップ304では、収集されたバナー各々に対して特徴ベクトル(feature vector)が作成される。特徴ベクトルは、具体的には、関連する意味を識別する働きをする。一実施形態では、特徴ベクトルの作成は、まず収集されたバナーを、ウェブ検索エンジンを用いて検索し、返された上位N個の抜粋(snippet)を収集することを含む。これらの抜粋は、さらに、カバレッジを強化するために1つまたは複数の追加ソース(例えば、ニュースコーパス)から取り出された情報と組み合わされ、これにより、新しいより大きなコーパスを形成する。コーパスが完成すると、次いで各バナーについて、コーパス内の固定サイズのウインドウ内に同時に現れる単語が特徴語(feature word)として収集される。一実施形態では、各特徴語の重みは、新しいコーパス内の特徴語と候補バナーとの相互情報量(以下の式を参照)によって決定される。
Figure 0005337705
ここで、ciはバナー、wは単語であり、p(w)=カウント(w)/N、p(w,ci)=カウント(w,ci)/Nである。Nは、単語の数に関するトレーニングコーパスのサイズであり、カウント(w)は、単語wがトレーニングコーパスに現れる頻度であり、カウント(w,ci)は、wおよびciがトレーニングコーパスの固定サイズのウインドウ内に同時に現れる頻度である。
ステップ306によると、収集されたバナーは、意味カテゴリ(例えば、14のカテゴリ)に分割される。一実施形態では、このソートは、人の介入を通じて行われる(例えば、専門家によってカテゴリ分けが行われる)。一実施形態では、カテゴリは、専門家によって、例えば、春節用のバナー、誕生日用のバナー、結婚式用のバナー、成功を祝うバナーなどに定義される。
ステップ308によると、収集されたバナーは、自動的にカテゴリ内のサブカテゴリにクラスタ化される。一実施形態では、これは、K−Means法のクラスタ化を使用して行われる。クラスタ化で使用される2つの候補バナー間の距離の基準(measure)は、具体的には、それらの特徴ベクトルのコサイン値として定義される。すなわち、以下である。
Figure 0005337705
ここで、V1およびV2はそれぞれ、2つのバナー候補の特徴語のベクトルを表す。
ステップ310によると、重心特徴ベクトル(centroid feature vector)が各サブカテゴリについて作成される。一実施形態では、これは、サブカテゴリのメンバーベクトルを平均化することによって行われる。すなわち、以下である。
Figure 0005337705
ここで、Vcenは重心特徴ベクトルであり、Viはサブカテゴリ内のメンバーベクトルの1つである。さらにNはサブカテゴリのメンバーの数である。
図4は、構築された分類法を所与の対句に対して使用して、最も合致する候補バナーを見つけることに関連付けられたステップを示すフローチャートである。ステップ402によると、入力対句(input couplet)の特徴ベクトルが、対句に含まれる単語を使用して作成される。一実施形態では、特徴ベクトル内の各単語の重みは、対句内に現れる単語の頻度である。
ステップ404によると、バナー分類法における対句の特徴ベクトルと各サブカテゴリの重心特徴ベクトルとの間の距離が計算される。式2を参照すると、V1およびV2はそれぞれ、バナー分類法における対句の特徴ベクトルおよび各サブカテゴリの重心特徴ベクトルを表す。具体的には、最小の距離を有する番号nのサブカテゴリが選択される。
ステップ406によると、対句の特徴ベクトルと選択されたn個のサブカテゴリ内の各バナーの特徴ベクトルとの間の距離が計算される。ここで、V1およびV2はそれぞれ、対句の特徴ベクトル、および選択されたn個のサブカテゴリ内の各候補バナーの特徴ベクトルを表す。最後に、最小の距離を有するn個の候補バナーが選択される。n個の選択された候補バナーは、以下で詳細に説明されるランキングモデルに使用される。
既存の分類法からバナーを検索する、説明した情報取出し方法とは異なり、別のアプローチでは、対句システムまたは人のいずれかによって生成された、入力句および下の句に関する文字または単語を使用してバナーを作成することを含む。図5は、このバナー生成の第2のアプローチに関連付けられた高レベルのステップを示すフローチャートである。
ステップ502によると、関連する単語が、変換モデル(translation model)を使用して取得される。一実施形態では、モデルp(a|b)は、対句コーパスにおいてトレーニングされる。例えば以下である。
Figure 0005337705
ここで、カウント(a,b)は、aおよびbが対句の同じ位置で現れる発生回数を表す。カウント(b)は、bがトレーニングデータに現れる頻度を表す。所与の対句に現れる単語wiそれぞれについて、変換モデルを使用し、p(wj|wi)が閾値を超える場合に、単語wjが関連する単語のリスト内に選択される。
ステップ504によると、関連強度(AS:association strength)モデルを使用して、関連する単語のリストを拡充(enhance)させる。対句C(c1...cn)を所与として、単語wと対句Cとの間の関連性の強度は、具体的には、以下の式を使用しておおよその数値が求められる。
Figure 0005337705
MI(w, ci)は、具体的には、対句トレーニングデータを使用して、おおよそ推定することができる。すなわち、以下である。
Figure 0005337705
ここで、p(w)=カウント(w)/N、p(w,ci)=カウント(w,ci)/N、であり、Nは、対句トレーニングデータのサイズであり、カウント(w)は、単語wを含む対句の数であり、カウント(w,ci)は、単語wとciの両方を含む対句の数である。ASのスコアに基づいて、ある所与の対句について多くの関連する単語を得ることができる。特に、AS(w,C)が閾値を超える場合に、単語wは、関連する単語のリストに追加される。
ステップ506に従って、任意の数の単語がリスト内で組み合わされて、4文字のバナー候補を形成する。これらの候補バナーの一部または全てが、次により詳細に説明されるランキングモデルに使用される。
最も良いバナーを得るために、具体的には、上記の2つの方法からの候補が組み合わされて、ランク付けされる。ランク付けプロセスを、条件に合ったバナーを選択し、条件に合わない候補を除外する分類プロセスとするのも1つの方法である。一実施形態では、ランク付けは、ランキングSVMモデルを使用して実行される。
Figure 0005337705
ここで、
Figure 0005337705
はバナー候補の特徴ベクトルを示し、
Figure 0005337705
はSVMモデルの重みベクトルである。
Figure 0005337705
で使用される特徴は、具体的には以下のものを含むが、これらには限定されない(Bはバナー候補と仮定する)。
1.対句データにおいてトレーニングされた対句言語モデル(LM:Language Model)に従うp(B|LMc)
b1,b2,b3,b4は漢字とし、B={b1,b2,b3,b4}とすると、p(B|LMc)は、具体的には、以下の式を使用して計算される。
Figure 0005337705
2.(上記と同じ)バナーデータでトレーニングされたバナーLMに従うp(B|LMb)
3.(上記と同じ)新規コーパスでトレーニングされた一般的LMに従うp(B|LMg)
4.バナー候補と対句との間の関連スコア(association score)。一実施形態では、このスコアを計算するために、バナー候補は最初に単語にセグメント化される。候補バナーが{w1,w2,...Wn}にセグメント化されると仮定すると、その関連性は、具体的には、以下の式を使用して計算される。
Figure 0005337705
ここで、Cは入力対句であり、AS(Wi,C)は、WiとCとの間の関連性の強度である。
5.バナー候補Bと対句Cとの間の文脈(context)の類似性。情報の取出しに基づく方法を使用して取得されたこれらの候補バナーについて、分類法で検索するときに、文脈の類似性が取得される。入力対句を用いる方法で生成された候補バナーについて、文脈の類似性は、具体的には、入力対句を使用して(例えば、上述の文脈類似性の式を使用して)計算される。これらの特徴ベクトルは、これらのコンポーネントである単語の特徴ベクトルを合計することによって取得することが可能である。語彙リスト(vocabulary)内の各単語の特徴ベクトルを予め得るためには、分類法内の候補バナーの特徴ベクトルを作成するのと同様の方法が適用される。
本発明の対象を構造的特徴および/または方法論の動作に特有の言語で説明してきたが、添付の特許請求の範囲において定義される対象は、必ずしも上述した特有の特徴または動作には限定されないことを理解されたい。むしろ、上述した特有の特徴または動作は、特許請求の範囲を実装する例示的な形式として開示されている。

Claims (8)

  1. 中国語の入力対句に関連付けられた出力バナーを取得するためにコンピュータで実行される方法であって、
    既存の中国語バナーのセットを取得するステップと、
    前記既存の中国語バナーのセット内の各既存のバナーについて特徴ベクトルを作成するステップであって、各既存のバナーの特徴ベクトルは、各既存のバナーに関する検索結果に基づいて作成されるステップと、
    前記既存の中国語バナーのセットおよび前記既存のバナーの特徴ベクトルに基づいて、バナー分類法を構築するステップと、
    前記中国語の入力対句の特徴ベクトルを作成するステップと、
    前記バナー分類法によって、前記中国語の入力対句を前記既存の中国語バナーのセットと比較するステップであって、当該比較は、前記中国語の入力対句の特徴ベクトルと前記既存のバナーの各特徴ベクトルとの間の距離を計算することを含む、ステップと、
    前記比較に基づいて、前記セット内の前記既存のバナーの少なくとも1つを、該セット内の別の既存のバナーよりもより合致する候補バナーであると識別するステップと、
    前記既存のバナーのうち前記少なくとも1つの既存のバナーがより合致する候補であることを示す出力を提供するステップと
    を含むことを特徴とする、コンピュータで実行される方法。
  2. 前記バナー分類法を構築するステップは、前記セット内の各既存の中国語バナーを、複数のカテゴリの少なくとも1つに割り当てるステップを含むことを特徴とする請求項1に記載のコンピュータで実行される方法。
  3. 前記バナー分類法を構築するステップは、前記複数のカテゴリのうちの1つに割り当てられた既存の中国語バナーをサブカテゴリに分割するステップをさらに含むことを特徴とする請求項2に記載のコンピュータで実行される方法。
  4. 前記バナー分類法を構築するステップは、各サブカテゴリについて重心特徴ベクトルを作成するステップをさらに含むことを特徴とする、請求項3に記載のコンピュータで実行される方法。
  5. 前記比較するステップは、前記中国語の入力対句を前記複数のカテゴリの1つに割り当てるステップを含むことを特徴とする請求項1に記載のコンピュータで実行される方法。
  6. 中国語の入力対句に関連付けられた出力バナーを取得するためにコンピュータで実行される方法であって、前記方法は前記出力バナーを生成するステップを備え、前記出力バナーを生成するステップは、
    前記中国語の入力対句に関連する、中国語の単語のセットを識別するステップと、
    前記単語のセット内の各単語と前記中国語の入力対句との間の関連性の強度を計算するステップと、
    前記単語のセット内の単語のうち、前記関連性の強度が閾値を超えている単語を組み合わせて、候補バナーのセットを作成するステップと、
    前記候補バナーのセットに含まれる第1の候補バナーと、前記候補バナーのセットに含まれない第2の候補バナーとから、前記出力バナーを選択するステップであって、前記第2の候補バナーは、既存の中国語のバナーのセットから各既存のバナーの特徴ベクトルに少なくとも部分的に基づいて選択され、各既存のバナーの特徴ベクトルは、各既存のバナーに関する検索結果に少なくとも部分的に基づいて作成され、前記出力バナーは、前記第1の候補バナーと前記第2の候補バナーとを比較してランク付けすることによって選択されるステップと
    前記出力バナーを示す出力を提供するステップと
    を含むことを特徴とする方法。
  7. 前記単語のセットを識別するステップは、変換モデルに関連して行われる分析に基づいて識別することを含むことを特徴とする請求項6に記載の方法。
  8. 前記単語を組み合わせることは、4文字の候補バナーを形成するように単語を組み合わせることを含むことを特徴とする請求項6に記載の方法。
JP2009543241A 2006-12-20 2007-12-20 中国語バナーの生成 Expired - Fee Related JP5337705B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US87608506P 2006-12-20 2006-12-20
US60/876,085 2006-12-20
US11/788,448 US8000955B2 (en) 2006-12-20 2007-04-20 Generating Chinese language banners
US11/788,448 2007-04-20
PCT/US2007/088466 WO2008077148A1 (en) 2006-12-20 2007-12-20 Generating chinese language banners

Publications (2)

Publication Number Publication Date
JP2010515123A JP2010515123A (ja) 2010-05-06
JP5337705B2 true JP5337705B2 (ja) 2013-11-06

Family

ID=39536757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009543241A Expired - Fee Related JP5337705B2 (ja) 2006-12-20 2007-12-20 中国語バナーの生成

Country Status (5)

Country Link
US (2) US8000955B2 (ja)
EP (1) EP2122491A4 (ja)
JP (1) JP5337705B2 (ja)
CA (1) CA2669218A1 (ja)
WO (1) WO2008077148A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7962507B2 (en) 2007-11-19 2011-06-14 Microsoft Corporation Web content mining of pair-based data
TW200933391A (en) * 2008-01-24 2009-08-01 Delta Electronics Inc Network information search method applying speech recognition and sysrem thereof
CN111984783B (zh) * 2020-08-28 2024-04-02 达闼机器人股份有限公司 文本生成模型的训练方法、文本生成方法及相关设备

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4712174A (en) * 1984-04-24 1987-12-08 Computer Poet Corporation Method and apparatus for generating text
JPH083815B2 (ja) * 1985-10-25 1996-01-17 株式会社日立製作所 自然言語の共起関係辞書保守方法
SG49804A1 (en) 1996-03-20 1998-06-15 Government Of Singapore Repres Parsing and translating natural language sentences automatically
JPH10312382A (ja) * 1997-05-13 1998-11-24 Keiichi Shinoda 類似用例翻訳システム
US6299452B1 (en) * 1999-07-09 2001-10-09 Cognitive Concepts, Inc. Diagnostic system and method for phonological awareness, phonological processing, and reading skill testing
AU2621301A (en) * 1999-11-01 2001-05-14 Kurzweil Cyberart Technologies, Inc. Computer generated poetry system
US6941262B1 (en) * 1999-11-01 2005-09-06 Kurzweil Cyberart Technologies, Inc. Poet assistant's graphical user interface (GUI)
US7269802B1 (en) * 1999-11-01 2007-09-11 Kurzweil Cyberart Technologies, Inc. Poetry screen saver
US7475006B2 (en) 2001-07-11 2009-01-06 Microsoft Corporation, Inc. Method and apparatus for parsing text using mutual information
JP2003178057A (ja) * 2001-12-13 2003-06-27 Ntt Data Corp フレーズ生成装置、フレーズ生成方法、及びプログラム
AUPR958901A0 (en) * 2001-12-18 2002-01-24 Telstra New Wave Pty Ltd Information resource taxonomy
US20040122660A1 (en) * 2002-12-20 2004-06-24 International Business Machines Corporation Creating taxonomies and training data in multiple languages
US20040133558A1 (en) * 2003-01-06 2004-07-08 Masterwriter, Inc. Information management system plus
JP2005100335A (ja) * 2003-09-01 2005-04-14 Advanced Telecommunication Research Institute International 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ
US20050071148A1 (en) 2003-09-15 2005-03-31 Microsoft Corporation Chinese word segmentation
JP2005228016A (ja) * 2004-02-13 2005-08-25 Hitachi Ltd 文字表示方法
US7810021B2 (en) * 2006-02-24 2010-10-05 Paxson Dana W Apparatus and method for creating literary macramés
US20070294223A1 (en) * 2006-06-16 2007-12-20 Technion Research And Development Foundation Ltd. Text Categorization Using External Knowledge

Also Published As

Publication number Publication date
EP2122491A1 (en) 2009-11-25
US8000955B2 (en) 2011-08-16
CA2669218A1 (en) 2008-06-26
WO2008077148A1 (en) 2008-06-26
US20110257959A1 (en) 2011-10-20
EP2122491A4 (en) 2017-11-29
JP2010515123A (ja) 2010-05-06
US20080154580A1 (en) 2008-06-26
US8862459B2 (en) 2014-10-14

Similar Documents

Publication Publication Date Title
Desagulier et al. Corpus linguistics and statistics with R
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
US10176804B2 (en) Analyzing textual data
JP5825676B2 (ja) ノン・ファクトイド型質問応答システム及びコンピュータプログラム
US20210142791A1 (en) System and Method for Intent Discovery from Multimedia Conversation
CN111177365A (zh) 一种基于图模型的无监督自动文摘提取方法
US20160062985A1 (en) Clustering Classes in Language Modeling
Biemann Structure discovery in natural language
JP6361351B2 (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
CN102314440B (zh) 利用网络维护语言模型库的方法和系统
CN108073565A (zh) 词语规范化的方法和设备及机器翻译方法和设备
Flati et al. Multiwibi: The multilingual wikipedia bitaxonomy project
Malmasi et al. Language transfer hypotheses with linear SVM weights
CN110119443B (zh) 一种面向推荐服务的情感分析方法
CN104750677A (zh) 语音传译装置、语音传译方法及语音传译程序
Neubig et al. A summary of the first workshop on language technology for language documentation and revitalization
Zakharov Corpora of the Russian language
Dowlagar et al. A survey of recent neural network models on code-mixed indian hate speech data
JP5337705B2 (ja) 中国語バナーの生成
Arora et al. Computational historical linguistics and language diversity in South Asia
Corrigan et al. Feature-based versus aggregate analyses of the DECTE corpus: Phonological and morphological variability in Tyneside English
CN114722206A (zh) 一种基于关键词筛选和注意力机制的极短文本分类方法
Lamb et al. Developing embedding models for Scottish Gaelic
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
CN113486155B (zh) 一种融合固定短语信息的中文命名方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101101

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120810

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121112

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121119

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121210

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121217

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130110

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130610

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130805

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees