JP7194515B2 - ソーシャルネットワークコンテンツを基盤に単語ベクトル化技法を利用して日常言語に拡張するための方法およびシステム - Google Patents

ソーシャルネットワークコンテンツを基盤に単語ベクトル化技法を利用して日常言語に拡張するための方法およびシステム Download PDF

Info

Publication number
JP7194515B2
JP7194515B2 JP2018095448A JP2018095448A JP7194515B2 JP 7194515 B2 JP7194515 B2 JP 7194515B2 JP 2018095448 A JP2018095448 A JP 2018095448A JP 2018095448 A JP2018095448 A JP 2018095448A JP 7194515 B2 JP7194515 B2 JP 7194515B2
Authority
JP
Japan
Prior art keywords
content
keyword
words
target
social network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018095448A
Other languages
English (en)
Other versions
JP2019008783A (ja
Inventor
ヒョクジェ ジャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Line Corp
Original Assignee
Line Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Line Corp filed Critical Line Corp
Publication of JP2019008783A publication Critical patent/JP2019008783A/ja
Application granted granted Critical
Publication of JP7194515B2 publication Critical patent/JP7194515B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Description

以下の説明は、ソーシャルネットワークコンテンツに含まれた日常言語を収集して活用するための技術に関する。
超高速通信網の利用者の急激な増加は、通信網を利用した多様なサービスの開発およびサービスアイテムの多様化を可能にしている。
一例として、特許文献1(公開日2006年12月28日)には、移動通信環境でキーワードマッチングサービス(keyword matching service)を利用して多様なコンテンツを提供する技術が開示されている。
一方、人々が日常会話やメッセンジャーを活用するときに使用する単語には、同じ意味であっても性別や年齢などに応じて複数の異なる単語が活用される傾向があり、さらに隠語、卑俗後、口語体単語、および短縮語が多く使用される(例えば、ピーシールーム、PCルーム、ゲームルーム、Gルーム、Pルーム)。
メッセンジャーで人々の会話に基づいて広告を執行しようとするとき、大部分の場合には、予め指定された広告カテゴリあるいは予め作成されている単語辞書に基づいてキーワードマッチングを試みるようになるが、上述したような理由により、会話の脈絡や意味の把握あるいはキーワードマッチングが困難な場合が多く発生する。
また、「いいね」と言う意味を例に挙げるとき「やるね->最高->すごい->神!」という変化を示す流行語などのように、時間の経過によって人々が使用する言語(単語)が変わる場合も同じように、予め定められている単語辞書などの技法を活用する場合はキーワードマッチングに困難が生じるようになる。
さらに、キーワードマッチングあるいは会話の脈絡を把握しようとするとき、特定の分野を指称する一般名詞を使用せずに固有名詞だけで話す場合(例えば、TV芸能プログラムである無限挑戦、ソルジョンなど)、このような固有名詞を単語辞書に登録するのは極めて難しく、限界がある。
韓国公開特許公報第10-2006-0134450号
人々が日常で実際に使用する言語を見ることのできるSNSやメッセンジャーなどから日常言語を収集し、これを広告や検索などのコンテンツ提供分野で活用することができる方法およびシステムを提供する。
コンピュータで実現されるコンテンツ提供方法であって、インターネット上のソーシャルネットワークコンテンツを収集する段階、クライアントを対象にサービスしようとする対象コンテンツに対し、該当のコンテンツ情報を前記ソーシャルネットワークコンテンツに含まれた単語集合として拡張する段階、および前記単語集合を利用し、前記クライアントと関連するユーザ情報に対して前記対象コンテンツを前記クライアントに提供する段階を含むコンテンツ提供方法を提供する。
本発明の実施形態によると、人々が日常で実際に使用する言語を見ることのできるSNSやメッセンジャーなどから日常言語を収集し、これを広告や検索などのコンテンツ提供分野で活用することができる。
本発明の一実施形態における、コンテンツ提供環境の例を説明するための図である。 本発明の一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。 本発明の一実施形態における、日常言語基盤単語集合を構成して広告提供に活用する技術シナリオの一例を説明するための例示図である。 本発明の一実施形態における、コンピュータシステムのプロセッサが含むことのできる構成要素の例を示した図である。 本発明の一実施形態における、コンピュータシステムが実行することのできるコンテンツ提供方法の例を示したフローチャートである。 本発明の一実施形態における、キーワードDBを構成する過程の例を示したフローチャートである。 本発明の一実施形態における、コンテンツ情報を日常言語に拡張する過程の例を示したフローチャートである。 本発明の一実施形態における、キーワードDBに含まれた単語をベクトル空間上に示した様子を示した図である。 本発明の一実施形態における、日常言語基盤単語集合を利用して対象コンテンツを提供する過程の例を示した図である。
<発明の概要>
一側面によると、前記ソーシャルネットワークコンテンツを利用して単語をベクトルに変換するためのキーワードDBを構成する段階をさらに含み、前記拡張する段階は、前記キーワードDBを利用して前記コンテンツ情報に対する類似語集合を生成してよい。
他の側面によると、前記構成する段階は、前記ソーシャルネットワークコンテンツの分類基準にしたがってキーワードDBをそれぞれ構成し、前記拡張する段階は、前記対象コンテンツのターゲットに対応する分類基準のキーワードDBを利用して前記コンテンツ情報に対する類似語集合を生成してよい。
また他の側面によると、前記構成する段階は、前記ソーシャルネットワークコンテンツに対して言語別にキーワードDBをそれぞれ構成し、前記拡張する段階は、前記言語別のキーワードDBを利用して前記コンテンツ情報に対して少なくとも1つの目的言語として語集合を拡張してよい。
また他の側面によると、前記構成する段階は、自然語処理技術によって前記ソーシャルネットワークコンテンツを前処理する段階、および前記前処理された単語をベクトル化してベクトルテーブルを含むキーワードDBを生成する段階を含んでよい。
また他の側面によると、前記構成する段階は、前記ソーシャルネットワークコンテンツを周期的に収集して前記キーワードDBをアップデートする段階を含んでよい。
また他の側面によると、前記拡張する段階は、前記キーワードDBを利用して前記コンテンツ情報に該当する単語をベクトル形態に変換した後、前記変換されたベクトルを基準として類似語を抽出する段階を含んでよい。
また他の側面によると、前記拡張する段階は、前記キーワードDBを利用して前記コンテンツ情報に該当する単語をベクトル形態に変換した後、前記変換されたベクトルを基準としてベクトル空間で類似度をもつ単語を抽出することによって前記コンテンツ情報に対する類似語集合を生成する段階を含んでよい。
また他の側面によると、前記提供する段階は、前記単語集合を前記クライアントに提供した後、前記クライアントからコンテンツ要請があるときには前記対象コンテンツを前記クライアントに伝達し、前記クライアントでは、前記ユーザ情報を前記単語集合と比較した結果にしたがって前記対象コンテンツを要請してよい。
また他の側面によると、前記提供する段階は、前記クライアントから前記ユーザ情報が伝達された後、前記ユーザ情報を前記単語集合と比較した結果にしたがって前記対象コンテンツを前記クライアントに伝達してよい。
コンピュータシステムと結合してコンテンツ提供方法を実行させるためにコンピュータで読み取り可能な記録媒体に記録されたコンピュータプログラムであって、前記コンテンツ提供方法は、インターネット上のソーシャルネットワークコンテンツを収集した後、前記ソーシャルネットワークコンテンツを利用して単語をベクトルに変換するためのキーワードDBを構成する段階、クライアントを対象にサービスしようとする対象コンテンツに対し、前記キーワードDBを利用して該当のコンテンツ情報を前記ソーシャルネットワークコンテンツに含まれた単語集合として拡張する段階、および前記単語集合を利用し、前記クライアントと関連するユーザ情報に対して前記対象コンテンツを前記クライアントに提供する段階を含む、コンピュータプログラムを提供する。
コンピュータで実現されるコンテンツ提供システムであって、コンピュータが読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、インターネット上のソーシャルネットワークコンテンツを収集した後、前記ソーシャルネットワークコンテンツを利用して単語をベクトルに変換するためのキーワードDBを構成する構成部、クライアントを対象にサービスしようとする対象コンテンツに対し、前記キーワードDBを利用して該当のコンテンツ情報を前記ソーシャルネットワークコンテンツに含まれた単語集合として拡張する拡張部、および前記単語集合を利用し、前記クライアントと関連するユーザ情報に対して前記対象コンテンツを前記クライアントに提供する提供部を備える、コンテンツ提供システムを提供する。
<発明の詳細>
以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。
本発明の実施形態は、日常言語基盤単語集合を構成し、これをコンテンツ提供サービスで活用することのできる技術に関する。
本明細書において具体的に開示される事項などを含む実施形態は、ソーシャルネットワークコンテンツを基盤として日常言語基盤単語集合を構成し、これを利用してコンテンツを提供することができるが、これによって正確性、効率性、容易性、費用節減などの側面において相当な長所を達成する。
本明細書において、「コンテンツ」とは、広告コンテンツのような情報データはもちろん、映画情報、ニュース、動画、イメージ、コミュニティ掲示物などのように、インターネットやコンピュータ通信などによって提供可能なすべての情報データを意味してよい。言い換えれば、コンテンツは、広告モデルや検索エンジンなどによってユーザに提供可能なすべての対象が含まれてよい。
以下では、コンテンツの一実施形態として広告コンテンツについて説明しているが、これに限定されることはなく、上述したように検索結果として提供されるコンテンツなどが含まれてよく、インターネットやコンピュータ通信などによってユーザに提供可能なすべてのコンテンツが適用されてよい。
図1は、本発明の一実施形態における、コンテンツ提供環境の例を説明するための図である。このとき、図1は、コンテンツ提供者110、プラットフォーム120、パブリッシャ130、およびユーザ140を示している。ここで、コンテンツ提供者110とユーザ140は、実質的には、コンテンツ提供者110やユーザ140が利用するPCやスマートフォンなどの端末機を意味してよい。すなわち、図1において、コンテンツ提供者110、プラットフォーム120、パブリッシャ130、およびユーザ140の間に示された矢印は、コンテンツ提供者110が利用する端末機、プラットフォーム120、パブリッシャ130、およびユーザ140が利用する端末機間で有線/無線ネットワークを利用してデータの送受信が可能であることを意味してよい。
プラットフォーム120は、コンテンツ提供者110の情報データとして提供されるコンテンツに対する入札、コンテンツを提供するユーザに対するターゲティング要素のマッチング、コンテンツの整列、パブリッシャ130へのコンテンツ提供、およびコンテンツの表示によるコンテンツ提供者110への課金などを実行するシステムを意味してよい。
本明細書において、「パブリッシャ」という用語は、「サイト」という用語に置き換えられて使用されてもよい。ただし、サイトという用語を使用した説明が、モバイル端末機で実行されるアプリケーション画面などように、一般的なPCのウェブサイト接続ではない環境での本発明の実施の可能性を排除するものではない。これとは逆に、「サイト」という用語は、パブリッシングサイトまたは上述した「パブリッシャ」という用語に互換されて使用されてもよい。言い換えれば、それぞれのサイトは、パブリッシャ130が含む個別のパブリッシャ(第1パブリッシャ、第2パブリッシャ、・・・)に対応してよい。ここで、個別のパブリッシャそれぞれは、1つ以上のパブリッシャサーバで実現されてよい。このとき、「サイト」という用語は、コンテンツの表示が可能であり、有線ネットワークまたは無線ネットワークを介してユーザ140に提供可能なすべての種類のウェブサイトを含んでもよく、ウェブサイトを構成する1つのウェブページを意味してもよい。
また、本明細書において、コンテンツの「表示」とは、パブリッシャ130から、コンテンツ提供者110と関連する広報性コンテンツ、すなわち、情報データが該当のサイトの訪問者に提供されることを含むように解釈されてよい。
パブリッシャ130は、自身のサイトで提供するためのコンテンツをプラットフォーム120から受信し、ユーザ140に提供してよい。例えば、パブリッシャ130は、ユーザ140が入力した検索クエリやメッセンジャーなどの対話データに含まれたキーワード、あるいは他の行動分析結果などに対応する付加コンテンツとしてプラットフォーム120から情報データを受信し、ユーザ140に提供してよい。
このように、パブリッシャ130は、コンテンツがユーザ140に直接提供されるようにする提供経路を提供するものであり、一般的なオンライン環境において、コンテンツは、ウェブ/モバイルサイトで提供されてよい。ここで、プラットフォーム120が含む複数個の個別プラットフォーム(第1プラットフォーム、第2プラットフォーム、・・・)それぞれは、パブリッシャ130が含む複数の個別パブリッシャ(第1パブリッシャ、第2パブリッシャ、・・・)のうちの少なくとも1つの個別パブリッシャからコンテンツを表示してよい。ここで、個別プラットフォームそれぞれは、1つ以上のプラットフォームサーバで実現されてよい。
図1で、ファイル配布システム150は、必要によっては選択的に利用されてよい。例えば、ユーザ140がモバイル端末機を利用する場合、ファイル配布システム150は、パブリッシャ130と関連するアプリケーションをモバイル端末機にインストールするためのファイルをユーザ140に提供してよい。このために、ファイル配布システム150は、上述したファイルを格納および維持するファイル管理部と、ユーザ140のモバイル端末機の要請にしたがってモバイル端末機に上述したファイルを送信するファイル送信部を備えてよい。送信されたファイルを利用してモバイル端末機にアプリケーションがインストールされてよく、アプリケーションは、モバイル端末機が本発明の一実施形態に係るコンテンツの提供のための段階を実行するようにモバイル端末機を制御してよい。
本発明の実施形態では、図1を参照しながら説明したコンテンツ提供環境を適用してよい。このとき、プラットフォーム120の事業者は、コンテンツ提供者110のコンテンツである情報データ、コンテンツ別のキーワードやカテゴリ、コンテンツが提供されるターゲティング対象(年齢、性別、関心分野など)などをコンテンツ提供者110が選択または入力できるようにプラットフォーム120を設計してよい。これにより、コンテンツ提供者110は、プラットフォーム120にコンテンツをアップロードしてビッディング(bidding)することにより、プラットフォーム120上に自身のコンテンツを登録してよい。
ユーザ140が利用する端末には、パブリッシャ130と関連するプログラムがインストールされてよい。例えば、プログラムは、アプリケーションの形態またはプラグイン形態でユーザ140の端末にインストールされてよく、パブリッシャ130が提供する情報が出力されるように、ユーザ140の端末やユーザ140の端末にインストールされたウェブブラウザを制御してよい。
本発明に係るコンテンツ提供システムおよびコンテンツ提供方法を具体的に説明すれば、次のとおりとなる。
図2は、本発明の一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。例えば、本発明の実施形態に係るコンテンツ提供システムが、図2のコンピュータシステム200によって実現されてよい。本発明の実施形態で説明するコンテンツ提供システムは、実施形態によっては、図1を参照しながら上述した複数の個別プラットフォームのうちの1つのプラットフォームを構成するコンピュータシステムであってよい。
図2に示すように、コンピュータシステム200は、コンテンツ提供方法を実行するための構成要素として、プロセッサ210、メモリ220、永久記憶装置230、バス240、入力/出力インタフェース250、およびネットワークインタフェース260を含んでよい。
プロセッサ210は、命令語のシーケンスを処理することのできる任意の装置を含んでもよいし、その一部であってもよい。プロセッサ210は、例えば、コンピュータプロセッサ、移動装置または他の電子装置内のプロセッサ、および/またはデジタルプロセッサを含んでよい。プロセッサ210は、例えば、サーバコンピュータデバイス、サーバコンピュータ、一連のサーバコンピュータ、サーバファーム、クラウドコンピュータ、コンテンツプラットフォーム、移動コンピュータ装置、スマートフォン、タブレット、セットップボックスなどに含まれてよい。プロセッサ210は、バス240を介してメモリ220に接続されてよい。
メモリ220は、コンピュータシステム200によって使用されたり出力される情報を格納したりするための揮発性メモリ、永久、仮想、またはその他のメモリを含んでよい。メモリ220は、例えば、RAM(random access memory)および/または動的RAM(DRAM:dynamic RAM)を含んでよい。メモリ220は、コンピュータシステム200の状態情報のような任意の情報を格納するのに使用されてよい。メモリ220は、例えば、顔認識カメラを制御するための命令語を含むコンピュータシステム200の命令語を格納するのに使用されてもよい。コンピュータシステム200は、必要な場合または適切な場合には、1つ以上のプロセッサ210を含んでもよい。
バス240は、コンピュータシステム200の多様なコンポーネント間の相互作用を可能にする通信基盤構造を含んでよい。バス240は、コンピュータシステム200のコンポーネント間に、例えば、プロセッサ210とメモリ220間にデータを運搬してよい。バス240は、コンピュータシステム200のコンポーネント間の無線および/または有線通信媒体を含んでよく、並列、直列、または他のトポロジー配列を含んでよい。
永久記憶装置230は、(例えば、メモリ220に比べて)所定の延長された期間内にデータを格納するために、コンピュータシステム200によって使用されるようなメモリまたは他の永久格納装置のようなコンポーネントを含んでよい。永久記憶装置230は、コンピュータシステム200内のプロセッサ210によって使用されるような非揮発性メインメモリを含んでよい。永久記憶装置230は、例えば、フラッシュメモリ、ハードディスク、光ディスク、または他のコンピュータ読み取り可能媒体を含んでよい。
入力/出力インタフェース250は、キーボード、マウス、音声命令入力、ディスプレイ、または他の入力または出力装置に対するインタフェースを含んでよい。構成命令および/または顔認識カメラと関連する入力が、入力/出力インタフェース250を通じて受信されてよい。
ネットワークインタフェース260は、近距離ネットワークまたはインターネットのようなネットワークに対する1つ以上のインタフェースを含んでよい。ネットワークインタフェース260は、有線または無線接続に対するインタフェースを含んでよい。構成命令は、ネットワークインタフェース260を通じて受信されてよい。また、顔認識カメラと関連する情報は、ネットワークインタフェース260を通じて受信または送信されてよい。
また、他の実施形態において、コンピュータシステム200は、図2の構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータシステム200は、上述した入力/出力装置250と連結する入力/出力装置のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、GPS(Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、コンピュータシステム200がスマートフォンのようなモバイル機器の形態で実現される場合、一般的にモバイル機器が含んでいるカメラ、加速度センサやジャイロセンサ、カメラ、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などのような多様な構成要素がコンピュータシステム200にさらに含まれるように実現されてよい。
図3は、本発明の一実施形態における、日常言語基盤単語集合を構成して広告提供に活用する技術シナリオの一例を説明するための例示図である。
(1)コンピュータシステム200は、インターネット上のSNS(social network service)やメッセンジャーなどでの対話データをソーシャルネットワークコンテンツとして収集してよい。コンピュータシステム200は、対話データを収集する過程において、話し手の年齢、性別、関心分野、言語などに応じて対話データを分類して収集してよい。対話データの分類基準として利用される情報(年齢、性別、関心分野、言語など)は、事前登録や設定によって定められた情報、あるいは対話データの累積から導き出された情報であってよい。
(2)コンピュータシステム200は、収集した対話データを自然語処理した後、自然語処理された単語を単語埋め込み(word embedding)によってベクトルに変換してキーワードDB201を生成してよい。このとき、コンピュータシステム200は、収集した対話データを分類基準(年齢、性別、関心分野、言語など)に応じてそれぞれ個別のキーワードDB201として生成してよく、生成されたキーワードDB201をキーワードDB202にアップデートしてよい。コンピュータシステム200は、対話データの分類基準にしたがい、例えば、20代男性のキーワードDB、30代女性のキーワードDB、山登りに関心のある40代男性のキーワードDBなどのように、キーワードDBをそれぞれ個別のDBとして生成および管理してよい。
(3)コンピュータシステム200は、広告主のようなコンテンツ提供者110がビッディングなどの手順を経て登録した広告コンテンツを広告コンテンツDBプール203に格納してよい。このとき、コンテンツ提供者110は、広告コンテンツを登録する過程においてコンテンツ情報を入力してよい。一例として、コンテンツ情報は、広告を提供しようとするターゲットキーワードやカテゴリ名などで設定されてよい。また、コンテンツ提供者110は、広告コンテンツを登録する過程において、広告を提供したいターゲットに関する情報、例えば年齢、性別、関心分野、言語などの外部条件を設定してよい。
(4)コンピュータシステム200は、キーワードDBプール202からコンテンツ提供者110が入力したターゲットに関する情報に基づいてキーワードDB201’を選択した後、選択されたキーワードDB201’を利用してコンテンツ情報を日常言語集合として拡張し、該当の言語集合をターゲットに該当するクライアントに一種の辞書形態で送信してよい。したがって、コンピュータシステム200は、コンテンツ提供者110が入力したターゲットに関する情報に基づいて選択したキーワードDB201’を利用することで、コンテンツ提供者110のコンテンツ情報に対して日常言語として拡張された単語集合を構成することが可能となる。
(5)コンピュータシステム200は、日常言語基盤単語集合を利用し、該当の日常言語を使用するか、関連する行動を示すユーザ(モバイルあるいはPCクライアント)140を対象に、コンテンツ提供者110によって登録された広告コンテンツを提供してよい。
したがって、コンピュータシステム200は、ソーシャルネットワークコンテンツを基盤に単語ベクトル化技法を活用してコンテンツ情報(ターゲットキーワードやカテゴリなど)を日常で頻繁に使用する言語に拡張した単語集合を構成した後、これに基づいてユーザの対話や行動を分析することにより、関連する広告コンテンツを提供することが可能となる。
さらに、コンピュータシステム200は、コンテンツ提供者110のコンテンツ情報に対して日常言語に拡張された単語集合をクライアントに提供するのに先立ち、該当のコンテンツ提供者110が先にモニタリングして編集することのできる機能を提供してよい。したがって、コンテンツ提供者110は、日常言語集合に拡張されたコンテンツ情報を事前にモニタリングし、修正や削除などの編集によって不適切であるか所望しない単語などのような一部の単語をフィルタリングすることが可能となる。
図4は、本発明の一実施形態における、コンピュータシステムのプロセッサが含むことのできる構成要素の例を示した図であり、図5は、本発明の一実施形態における、コンピュータシステムが実行することのできるコンテンツ提供方法の例を示したフローチャートである。
図4に示すように、プロセッサ210は、構成部410、拡張部420、および提供部430を備えてよい。このようなプロセッサ210の構成要素は、少なくとも1つのプログラムコードによって提供される制御命令にしたがってプロセッサ210によって実行される互いに異なる機能の表現であってよい。例えば、プロセッサ210がソーシャルネットワークコンテンツを利用してキーワードDBを構成するようにコンピュータシステム200を制御するために動作する機能的表現として、構成部410が使用されてよい。プロセッサ210およびプロセッサ210の構成要素は、図5のコンテンツ提供方法が含む段階510~540を実行してよい。例えば、プロセッサ210およびプロセッサ210の構成要素は、メモリ220が含むオペレーティングシステムのコードと上述した少なくとも1つのプログラムコードによる命令を実行するように実現されてよい。ここで、少なくとも1つのプログラムコードは、コンテンツ提供方法を処理するために実現されたプログラムのコードに対応してよい。
コンテンツ提供方法は、図に示す順のとおりに発生しないこともあり、段階のうちの一部が省略されてもよいし、追加の過程がさらに含まれてもよい。
段階510で、プロセッサ210は、コンテンツ提供方法のためのプログラムファイルに格納されたプログラムコードをメモリ220にロードしてよい。例えば、コンテンツ提供方法のためのプログラムファイルは、図2を参照しながら説明した永久記憶装置230に格納されていてよく、プロセッサ210は、バスを介して永久記憶装置230に格納されたプログラムファイルからプログラムコードがメモリ220にロードされるようにコンピュータシステム200を制御してよい。このとき、プロセッサ210およびプロセッサ210が含む構成部410、拡張部420、および提供部430それぞれは、メモリ220にロードされたプログラムコードのうちの対応する部分の命令を実行して以後の段階520~540を実行するためのプロセッサ210の互いに異なる機能的表現であってよい。段階520~540の実行のために、プロセッサ210およびプロセッサ210の構成要素は、制御命令による演算を直接に処理するか、コンピュータシステム200を制御してよい。
段階520で、構成部410は、ソーシャルネットワークコンテンツに基づき、単語を数学的ベクトル形態に変換するためのキーワードDBを構成してよい。
構成部410は、インターネット上のSNSやメッセンジャーなどでの対話データをソーシャルネットワークコンテンツとして収集し、これを利用してキーワードDBを構成してよい。このとき、構成部410は、対話データを収集する過程において、話し手の年齢、性別、関心分野、言語などに応じて対話データを分類して収集してよく、収集した対話データに対し、各分類基準(年齢、性別、関心分野、言語など)に応じて個別のDBを構成してよい。すなわち、キーワードDBは複数個のDBで構成されてよく、このとき、それぞれのDBは、対話データの分類基準(年齢、性別、関心分野、言語など)に応じて該当となる特性を代表してよい(例えば、10代男性キーワードDB、40代女性キーワードDBなど)。キーワードDBを構成する具体的な方法については、以下で具体的に説明する。
段階530で、拡張部420は、クライアントを対象にサービスしようとする対象コンテンツ(例えば、広告コンテンツなど)に対し、キーワードDBを利用して該当のコンテンツ情報を日常言語基盤単語集合に拡張してよい。このとき、コンテンツ情報は、対象コンテンツと関連するターゲットキーワードとカテゴリ名などを含んでよい。拡張部420は、対象コンテンツに対し、複数個のキーワードDBのうちから該当となるコンテンツのターゲットに対応するキーワードDBを選択してよい。また、拡張部420は、選択されたキーワードDBを利用して該当のコンテンツ情報を数学的ベクトル形態に変換した後、変換されたベクトルを基準として意味的に類似する単語集合を構成してよい。したがって、拡張部420は、対象コンテンツと関連するコンテンツ情報に該当する単語を、単語ベクトル化技法を利用することにより、ベクトル空間で類似の意味をもつ単語類似語集合に拡張することができる。
段階540で、提供部430は、日常言語基盤単語集合を利用し、クライアントと関連するユーザ情報に基づいて対象コンテンツを該当となるクライアントに提供してよい。一例として、提供部430は、対象コンテンツに対して拡張された単語集合をクライアントに伝達し、クライアントで単語集合に基づいてコンテンツ要請があるときに対象コンテンツをクライアントに伝達してよい。このとき、クライアント側では、該当の単語集合をユーザの対話あるいは他の行動(例えば、検索)による分析結果を含むユーザ情報と比較し、比較結果に基づいて対象コンテンツを要請してよい。他の例として、クライアント側では、ユーザの対話あるいは他の行動による分析結果を含むユーザ情報をコンテンツ提供システム200に送信してよく、これにより、提供部430は、クライアント端から受信されたユーザ情報を日常言語基盤単語集合と比較し、比較結果に基づいて対象コンテンツをクライアントに伝達してよい。例えば、提供部430は、コンテンツ提供者が入力したターゲットキーワードと一致するか類似の意味をもつ言語を利用して対話したり検索したりするユーザの端末機に、対象コンテンツを提供してよい。
したがって、本発明では、サービスしようとする対象コンテンツに対し、該当のコンテンツ情報を日常で人々が頻繁に使用する言語に拡張することができ、拡張された言語を使用して対話したり検索したりする人に該当のコンテンツを提供することが可能となる。
図6は、本発明の一実施形態における、キーワードDBを構成する過程の例を示したフローチャートである。
段階601で、構成部410は、インターネット上のソーシャルネットワークコンテンツを収集してよい。ソーシャルネットワークコンテンツは、SNS(例えば、フェイスブックやツイッター(登録商標)など)、メッセンジャー、ブログなどでの対話やコメントなどの対話データを含んでよく、構成部410は、このような対話データを収集して1次的にDBを生成してよい。このとき、構成部410は、対話データを収集する過程において、話し手の年齢、性別、関心分野、言語などに応じて対話データを個別に分類して収集してよい。
段階602で、構成部410は、段階601で収集されたソーシャルネットワークコンテンツを自然語処理技術によって前処理してよい。このとき、構成部410は、自然語処理技術を活用して対話データを前処理し、コーパス(corpus)形態に変換してよい。構成部410は、対話データから助詞や助動詞などのような不必要な品詞の単語や特殊記号(例えば、!、?、/など)などを除去し、体言や語根に該当する単語(例えば、動詞原型など)を抽出してよい。例えば、<話し手A:私、今日のお昼にジャジャン麺食べたの。話し手B:それじゃ明日はラーメン食べようよ。>のような初期対話データは、自然語処理技術により、<話し手A:私今日お昼ジャジャン麺食べる。話し手B:明日ラーメン食べる。>に変換されてよい。
段階603で、構成部410は、前処理された単語をベクトル化し、ベクトルテーブルとベクトル変換のためのマトリックスを含むキーワードDBを生成してよい。先ず、構成部410は、収集されたすべての単語をone-hot codingによってベクトル化した後、このとき生成されたベクトルを利用し、収集された対話で各単語の前/後順を考慮した上で、各単語間の位置相関関係に基づくすべての単語の出現確率を計算するニューラルネットワークを構成し、これを最大化する方法(maximum likelihood)を適用してよい。例えば、「スーパーに行ってアイスクリームを買って食べたら()が凍みた」において、()に入る単語の確率を全体単語集合と対比して求める。その後、構成部410は、最適化技法(例えば、Gradient decent optimization)によってニューラルネットワークを最適化させてよい。構成部410は、最適化過程によってニューラルネットワークの隠れ層(hidden layer)を構成するマトリックスを結果値として取得してよく、該当のマトリックスを利用して特定の単語をベクトルに変換してよい。このとき、すべての単語のone-hot vectorから変換しようとする単語のベクトルを選択すると、結果マトリックスによって乗算演算の結果値として出たベクトルが結果値となる。言い換えれば、各DBの内部には、すべての単語のベクトルテーブル(one-hot vector table)とこれを変換するためのマトリックスが存在する。ベクトルに変換された単語は、ベクトル空間でベクトル間の意味論的関係をもつようになる。言い換えれば、類似の意味をもつ単語どうしがクラスタをなし、単語どうしのベクトル演算(例えば、king-man+woman=queen)が可能となる。構成部410は、収集された対話データを、データの分類基準(年齢、性別、関心分野、言語など)に応じてそれぞれ個別のキーワードDBとして生成してよい。言い換えれば、キーワードDBは、特定の入力単語に対して特定の数学ベクトルに変換する複数個のDBで構成されてよく、このとき、それぞれのDBは、対話データの分類基準(年齢、性別、関心分野、言語など)に応じて該当となる特性を代表してよい。
したがって、構成部410は、日常で人々がやり取りする言語を収集し、各単語をベクトルに変換するように支援するDBを生成することが可能となる。特に、構成部410は、インターネットで日常対話を収集するときに、多国語を対象として言語別にそれぞれ個別のキーワードDBを生成してよい。このとき、コンテンツ提供者から入力されたコンテンツ情報(ターゲットキーワードとカテゴリ)を変換しようとする目的言語別に、翻訳または国際基準による該当の単語にキーワードDBを生成してよい。例えば、韓国語
(外1)
Figure 0007194515000001
の場合は、言語別に、英語「Game」、日本語「ゲーム」、中国語
(外2)
Figure 0007194515000002
などのように置き換えられてよい。
上述したDB生成過程は例示的なものに過ぎず、これは周知の多様な技術(例えば、word2vecなど)が利用されてもよい。
図7は、本発明の一実施形態における、コンテンツ情報を日常言語に拡張する過程の例を示した図である。
段階701で、拡張部420は、コンテンツ提供者から入力されたコンテンツを、サービスしようとする対象コンテンツとして登録してよい。このとき、該当のコンテンツと関連するターゲットキーワードとカテゴリ名を含んだコンテンツ情報、そして該当のコンテンツを提供しようとするターゲットに関する情報(例えば、年齢、性別、関心分野、言語など)を共に登録してよい。
段階702で、拡張部420は、対象コンテンツのコンテンツ情報(ターゲットキーワードとカテゴリ)を事前に構成されたキーワードDBを利用して数学的ベクトル形態に変換してよい。このとき、拡張部420は、複数個のキーワードDBのうちから、対象コンテンツのターゲットに対応する少なくとも1つのキーワードDBを選択してよい。キーワードDBは、対話データが含む特性、すなわち、話し手の年齢、性別、関心分野、言語などに応じて複数個のDBで構成されてよく、拡張部420は、複数のキーワードDBのうちからコンテンツ提供者が設定したターゲットに対する条件に合うDB(例えば、10代男性キーワードDB)を選択してよい。これにより、拡張部420は、複数個のキーワードDBのうちから選択されたキーワードDBを利用して対象コンテンツのコンテンツ情報をベクトル値に変換することが可能となる。
段階703で、拡張部420は、段階702で変換されたベクトルを基準に、キーワードDBを利用してベクトル空間で類似度をもつ類似単語を抽出して単語集合を生成することにより、コンテンツ情報を日常言語基盤単語集合として拡張してよい。類似単語の抽出は、ベクトル間の距離を計算してユークリッド距離にある単語を抽出する方法、コサイン類似度を利用して単語間の類似度を測定する方法などが利用されてよい。このような方法に限定されてはならず、ベクトル空間で類似度をもつ単語を抽出することのできる方法であれば、すべて適用可能である。キーワードDBを利用してベクトルに変換された単語は、ベクトル空間で類似の意味をもつ単語がクラスタをなすという特徴がある。キーワードDBは、SNSやメッセンジャーなどで人々がやり取りする日常対話を収集して構築したものであって、これを利用してコンテンツをターゲットしたい単語に拡張すれば、実際の人々が使用する日常言語や固有名詞の集合を基盤として類似語集合を生成するようになる。例えば、図8は、10代男性キーワードDB801に含まれた単語を2次元ベクトル空間上に示したものである。言い換えれば、キーワードDB801は、10代男性がSNSやメッセンジャーなどで日常的に利用される単語集合を意味することになる。ベクトルに変換された単語は、ベクトル空間でベクトル間の意味論的関係を有するが、このとき、類似の意味をもつ単語の場合はクラスタ800をなすようになる。コンテンツ提供者から設定されたターゲットキーワードが「ゲーム」である場合、「ゲーム」を該当のクラスタ800に属する<ゲーム、ゲー、娯楽、一戦、PCルーム、Pルーム、オーバーウォッチ、WOW>に拡張してよい。このとき、内部システムによる自動化過程によってインターネットで日常対話を周期的に収集してキーワードDBを常時アップデートすることにより、最近人々が使用する日常言語の変化を反映することが可能となる。キーワードDBは、1つのDBだけが存在するのではなく、多様な基準に応じて複数個のDBで構成されるため、コンテンツ登録過程においてコンテンツ提供者が入力した条件(年齢、性別、関心分野、言語など)に基づいてターゲットに合わせて選択的に使用されてよい。特に、キーワードDBが言語別に構成される場合、与えられたキーワードに対して少なくとも1つの目的言語に同時に拡張することも可能である。言い換えれば、与えられたキーワードを目的言語に翻訳し、各言語別のキーワードDBに翻訳されたキーワードを入力することによって拡張可能となる。
提供部430は、ユーザに対象コンテンツを提供するにあたり、該当のコンテンツ情報に対して拡張された日常言語基盤単語集合を使用してよい。例えば、図9を参照すると、コンテンツ提供者110が広告コンテンツAを登録し、広告コンテンツAを提供するためのターゲットキーワード設定を「ゲーム」とした場合、ターゲットキーワード「ゲーム」は、キーワードDBを利用して類似の意味をもつ日常言語で構成された単語集合<ゲーム、ゲー、娯楽、一戦、PCルーム、Pルーム、オーバーウォッチ、WOW>に拡張されてよい。クライアントであるユーザ140が対話や検索時にキーワード「ゲー」を入力したとき、提供部430は、入力キーワード「ゲー」がコンテンツ提供者110によって入力された対象キーワード「ゲーム」と一致しなくても、日常言語基盤語集合内に存在することから、対象キーワード「ゲーム」と類似の意味をもつ日常言語の範囲に属すると判断し、最終的にはユーザ140に広告コンテンツAを提供することが可能となる。
このように、本発明の実施形態によると、人々が日常で実際に使用する言語を見ることのできるSNSやメッセンジャーなどで日常言語を収集し、これを広告や検索などコンテンツ提供分野で活用することができる。また、本発明の実施形態によると、広告主のようなコンテンツ提供者によって入力されたキーワードやカテゴリ、あるいは辞書DB上の単語を直ぐに使用するのではなく、日常で人々が頻繁に使用する言語に変換あるいは拡張して使用することができる。さらに、本発明の実施形態によると、日常言語への変換および拡張過程を人間が手作業で行うのではなく、システムと数学的アルゴリズムを使用して自動化することができる。
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)および前記OS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ格納媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータで読み取り可能な記録媒体に格納されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータで読み取り可能な媒体に記録されてよい。このとき、媒体は、コンピュータによって実行可能なプログラムを継続して格納するものであっても、実行またはダウンロードのために臨時で格納するものであってもよい。また、媒体は、単一または複数個のハードウェアが結合した形態の多様な記録手段または格納手段であってよいが、あるコンピュータシステムに直接接続する媒体に限定されてはならず、ネットワーク上に分散存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROM、DVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含んでプログラム命令語が格納されるように構成されたものであってよい。また、他の媒体の例として、アプリケーションを流通するアプリストアやその他の多様なソフトウェアを供給ないし流通するサイト、サーバなどで管理する記録媒体ないし格納媒体が挙げられてもよい。
以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
本発明の実施形態は、更に以下を提供する。
コンテンツ提供者によって入力されたキーワードやカテゴリ、あるいは辞書DB上の単語を直ぐに使用するのではなく、日常で人々が頻繁に使用する言語に変換あるいは拡張して使用することのできる方法およびシステムを提供する。
日常言語への変換および拡張過程を人間が手作業で行うのではなく、システムと数学的アルゴリズムを使用して自動化することのできる方法およびシステムを提供する。
本発明の実施形態は、更に以下の効果を達成する。
本発明の実施形態によると、コンテンツ提供者によって入力されたキーワードやカテゴリ、あるいは辞書DB上の単語を直ぐに使用するのではなく、日常で人々が頻繁に使用する言語に変換あるいは拡張して使用することができる。
本発明の実施形態によると、日常言語への変換および拡張過程を人間が手作業で行うのではなく、システムと数学的アルゴリズムを使用して自動化することができる。
110:プロセッサ
410:構成部
420:拡張部
430:提供部

Claims (13)

  1. コンピュータで実現されるコンテンツ提供方法であって、
    分類基準に基づきインターネット上のソーシャルネットワークコンテンツを収集する段階であって、前記分類基準は、話し手の年齢、性別、関心分野のうちの1つ以上を含む、段階
    前記ソーシャルネットワークコンテンツを利用して単語をベクトルに変換するためのキーワードDBを構成する段階であって、前記分類基準に応じてそれぞれのキーワードDBが構成される、段階、
    対象コンテンツに対し、前記対象コンテンツのターゲットと対応する分類基準のキーワードDBを利用して該当のコンテンツ情報に対する類似語集合を生成することにより、該当のコンテンツ情報を前記ソーシャルネットワークコンテンツに含まれた単語集合として拡張する段階
    クライアントと関連するユーザ情報を前記単語集合と比較した結果に基づいて前記対象コンテンツを前記クライアントに提供する段階
    を含む、コンテンツ提供方法。
  2. 前記構成する段階は、
    自然語処理技術によって前記ソーシャルネットワークコンテンツを前処理する段階
    前記前処理された単語をベクトル化してベクトルテーブルを含むキーワードDBを生成する段階
    を含む、請求項に記載のコンテンツ提供方法。
  3. 前記構成する段階は、
    前記ソーシャルネットワークコンテンツを周期的に収集して前記キーワードDBをアップデートする段階
    を含む、請求項1又は2に記載のコンテンツ提供方法。
  4. 前記拡張する段階は、
    前記キーワードDBを利用して前記コンテンツ情報に該当する単語をベクトル形態に変換した後、前記変換されたベクトルを基準として類似語を抽出する段階
    を含む、請求項1~3のいずれか一項に記載のコンテンツ提供方法。
  5. 前記拡張する段階は、
    前記キーワードDBを利用して前記コンテンツ情報に該当する単語をベクトル形態に変換した後、前記変換されたベクトルを基準としてベクトル空間で類似度をもつ単語を抽出することにより、前記コンテンツ情報に対する類似語集合を生成する段階
    を含む、請求項1~3のいずれか一項に記載のコンテンツ提供方法。
  6. 前記提供する段階は、
    前記単語集合を前記クライアントに提供した後、前記クライアントからコンテンツ要請があるときに前記対象コンテンツを前記クライアントに伝達し、
    前記クライアントでは、前記ユーザ情報を前記単語集合と比較した結果にしたがって前記対象コンテンツを要請すること
    を特徴とする、請求項1~5のいずれか一項に記載のコンテンツ提供方法。
  7. コンピュータシステムと結合してコンテンツ提供方法を実行させるためにコンピュータで読み取り可能な記録媒体に記録されたコンピュータプログラムであって、
    前記コンテンツ提供方法は、
    分類基準に基づきインターネット上のソーシャルネットワークコンテンツを収集し、前記分類基準は、話し手の年齢、性別、関心分野のうちの1つ以上を含み、前記ソーシャルネットワークコンテンツを利用して単語をベクトルに変換するためのキーワードDBを構成する段階であって、前記分類基準に応じてそれぞれのキーワードDBが構成される、段階
    対象コンテンツに対し、前記対象コンテンツのターゲットと対応する分類基準のキーワードDBを利用して該当のコンテンツ情報に対する類似語集合を生成することにより、前記キーワードDBを利用し、該当のコンテンツ情報を前記ソーシャルネットワークコンテンツに含まれた単語集合として拡張する段階
    クライアントと関連するユーザ情報を前記単語集合と比較した結果に基づいて前記対象コンテンツを前記クライアントに提供する段階
    を含む、プログラム。
  8. コンピュータで実現されるコンテンツ提供システムであって、
    コンピュータが読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
    を含み、
    前記少なくとも1つのプロセッサは、
    分類基準に基づきインターネット上のソーシャルネットワークコンテンツを収集し、前記分類基準は、話し手の年齢、性別、関心分野のうちの1つ以上を含み、前記ソーシャルネットワークコンテンツを利用して単語をベクトルに変換するためのキーワードDBを構成する構成部であって、前記分類基準に応じてそれぞれのキーワードDBが構成される、構成部
    対象コンテンツに対し、前記キーワードDBを利用し、前記対象コンテンツのターゲットと対応する分類基準のキーワードDBを利用して該当のコンテンツ情報に対する類似語集合を生成することにより、該当のコンテンツ情報を前記ソーシャルネットワークコンテンツに含まれた単語集合として拡張する拡張部
    クライアントと関連するユーザ情報を前記単語集合と比較した結果に基づいて前記対象コンテンツを前記クライアントに提供する提供部
    を備える、コンテンツ提供システム。
  9. 前記構成部は、
    自然語処理技術によって前記ソーシャルネットワークコンテンツを前処理した後、前処理された単語をベクトル化してベクトルテーブルを含むキーワードDBを生成すること
    を特徴とする、請求項に記載のコンテンツ提供システム。
  10. 前記構成部は、
    前記ソーシャルネットワークコンテンツを周期的に収集して前記キーワードDBをアップデートすること
    を特徴とする、請求項8又は9に記載のコンテンツ提供システム。
  11. 前記拡張部は、
    前記キーワードDBを利用して前記コンテンツ情報に該当する単語をベクトル形態に変換した後、前記変換されたベクトルを基準として類似語を抽出すること
    を特徴とする、請求項8~10のいずれか一項に記載のコンテンツ提供システム。
  12. 前記拡張部は、
    前記キーワードDBを利用して前記コンテンツ情報に該当する単語をベクトル形態に変換した後、前記変換されたベクトルを基準としてベクトル空間で類似度をもつ単語を抽出することにより、前記コンテンツ情報に対する類似語集合を生成すること
    を特徴とする、請求項8~10のいずれか一項に記載のコンテンツ提供システム。
  13. 前記提供部は、
    前記単語集合を前記クライアントに提供した後、前記クライアントからコンテンツ要請があるときに前記対象コンテンツを前記クライアントに伝達し、
    前記クライアントでは、前記ユーザ情報を前記単語集合と比較した結果にしたがって前記対象コンテンツを要請すること
    を特徴とする、請求項8~12のいずれか一項に記載のコンテンツ提供システム。
JP2018095448A 2017-06-20 2018-05-17 ソーシャルネットワークコンテンツを基盤に単語ベクトル化技法を利用して日常言語に拡張するための方法およびシステム Active JP7194515B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0077859 2017-06-20
KR1020170077859A KR102027471B1 (ko) 2017-06-20 2017-06-20 소셜 네트워크 컨텐츠를 기반으로 단어 벡터화 기법을 이용하여 일상 언어로 확장하기 위한 방법 및 시스템

Publications (2)

Publication Number Publication Date
JP2019008783A JP2019008783A (ja) 2019-01-17
JP7194515B2 true JP7194515B2 (ja) 2022-12-22

Family

ID=64658115

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018095448A Active JP7194515B2 (ja) 2017-06-20 2018-05-17 ソーシャルネットワークコンテンツを基盤に単語ベクトル化技法を利用して日常言語に拡張するための方法およびシステム

Country Status (3)

Country Link
US (2) US10824804B2 (ja)
JP (1) JP7194515B2 (ja)
KR (1) KR102027471B1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102027471B1 (ko) * 2017-06-20 2019-10-01 라인 가부시키가이샤 소셜 네트워크 컨텐츠를 기반으로 단어 벡터화 기법을 이용하여 일상 언어로 확장하기 위한 방법 및 시스템
US10915707B2 (en) * 2017-10-20 2021-02-09 MachineVantage, Inc. Word replaceability through word vectors
US11410216B2 (en) * 2017-11-07 2022-08-09 Nec Corporation Customer service assistance apparatus, customer service assistance method, and computer-readable recording medium
WO2020113225A1 (en) * 2018-11-30 2020-06-04 Thomson Reuters Enterprise Centre Gmbh Systems and methods for identifying an event in data
US10769502B1 (en) * 2019-04-08 2020-09-08 Dropbox, Inc. Semantic image retrieval
US20200341977A1 (en) * 2019-04-25 2020-10-29 Mycelebs Co., Ltd. Method and apparatus for managing attribute language
KR20210099431A (ko) 2020-02-04 2021-08-12 성균관대학교산학협력단 Html 태그 정보를 이용한 웹 문서 임베딩 방법 및 장치
KR102566899B1 (ko) * 2020-02-24 2023-08-14 주식회사 한글과컴퓨터 개인별 맞춤형 자동 오타 정정을 수행할 수 있는 전자 단말 장치 및 그 동작 방법
US11159458B1 (en) 2020-06-10 2021-10-26 Capital One Services, Llc Systems and methods for combining and summarizing emoji responses to generate a text reaction from the emoji responses
US11500940B2 (en) 2020-08-13 2022-11-15 International Business Machines Corporation Expanding or abridging content based on user device activity
KR102254827B1 (ko) * 2020-08-13 2021-05-21 정진연 딥러닝을 통한 패턴마이닝 이후 레코멘데이션 서비스
KR102265945B1 (ko) * 2020-11-23 2021-06-17 주식회사 엠로 기계 학습 기반 아이템을 분류하는 방법 및 장치

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043236A (ja) 1999-07-30 2001-02-16 Matsushita Electric Ind Co Ltd 類似語抽出方法、文書検索方法及びこれらに用いる装置
JP2009177540A (ja) 2008-01-24 2009-08-06 Uncut Technology:Kk 画像表示システムおよびプログラム
JP2011204199A (ja) 2010-03-26 2011-10-13 Nomura Research Institute Ltd 株価変動イベント情報提供システム及びプログラム
JP2014075006A (ja) 2012-10-03 2014-04-24 Yahoo Japan Corp 広告配信装置および広告配信方法
JP2016031675A (ja) 2014-07-29 2016-03-07 Kddi株式会社 コンテンツ推奨装置およびプログラム
JP2016045583A (ja) 2014-08-20 2016-04-04 ヤフー株式会社 応答生成装置、応答生成方法及び応答生成プログラム
JP2016071849A (ja) 2014-09-23 2016-05-09 ネイバー コーポレーションNAVER Corporation メッセンジャの対話内容に基づいて推薦検索語を提供する方法とシステム、および記録媒体

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US7065550B2 (en) * 2001-02-14 2006-06-20 International Business Machines Corporation Information provision over a network based on a user's profile
JP4471737B2 (ja) * 2003-10-06 2010-06-02 日本電信電話株式会社 グループ化条件決定装置と方法およびそれを用いたキーワード拡張装置と方法ならびにコンテンツ検索システムおよびコンテンツ情報提供システムと方法ならびにプログラム
WO2006007194A1 (en) * 2004-06-25 2006-01-19 Personasearch, Inc. Dynamic search processor
KR100695214B1 (ko) 2005-06-22 2007-03-14 에스케이 텔레콤주식회사 이동통신 환경에서 키워드 매칭 서비스를 제공하는 방법 및시스템
WO2008045792A2 (en) * 2006-10-06 2008-04-17 Technorati, Inc. Methods and apparatus for conversational advertising
US20080147482A1 (en) * 2006-10-27 2008-06-19 Ripl Corp. Advertisement selection and propagation of advertisements within a social network
JP5187521B2 (ja) * 2007-01-12 2013-04-24 日本電気株式会社 プロトコル不一致検出システム、プロトコル不一致検出方法およびプロトコル不一致検出プログラム
US20080294622A1 (en) * 2007-05-25 2008-11-27 Issar Amit Kanigsberg Ontology based recommendation systems and methods
US20100057577A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Topic-Guided Broadening Of Advertising Targets In Social Indexing
US8166032B2 (en) * 2009-04-09 2012-04-24 MarketChorus, Inc. System and method for sentiment-based text classification and relevancy ranking
US20110153423A1 (en) * 2010-06-21 2011-06-23 Jon Elvekrog Method and system for creating user based summaries for content distribution
US8996496B2 (en) * 2010-02-18 2015-03-31 Mobitv, Inc. Retrieval and display of related content using text stream data feeds
US8751305B2 (en) * 2010-05-24 2014-06-10 140 Proof, Inc. Targeting users based on persona data
US20110288935A1 (en) * 2010-05-24 2011-11-24 Jon Elvekrog Optimizing targeted advertisement distribution
US20110288937A1 (en) * 2010-05-24 2011-11-24 Manoogian Iii John Scaling persona targeted advertisements
US10319046B2 (en) * 2012-07-20 2019-06-11 Salesforce.Com, Inc. System and method for aggregating social network feed information
US10073830B2 (en) * 2014-01-10 2018-09-11 Cluep Inc. Systems, devices, and methods for automatic detection of feelings in text
KR102027471B1 (ko) * 2017-06-20 2019-10-01 라인 가부시키가이샤 소셜 네트워크 컨텐츠를 기반으로 단어 벡터화 기법을 이용하여 일상 언어로 확장하기 위한 방법 및 시스템

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043236A (ja) 1999-07-30 2001-02-16 Matsushita Electric Ind Co Ltd 類似語抽出方法、文書検索方法及びこれらに用いる装置
JP2009177540A (ja) 2008-01-24 2009-08-06 Uncut Technology:Kk 画像表示システムおよびプログラム
JP2011204199A (ja) 2010-03-26 2011-10-13 Nomura Research Institute Ltd 株価変動イベント情報提供システム及びプログラム
JP2014075006A (ja) 2012-10-03 2014-04-24 Yahoo Japan Corp 広告配信装置および広告配信方法
JP2016031675A (ja) 2014-07-29 2016-03-07 Kddi株式会社 コンテンツ推奨装置およびプログラム
JP2016045583A (ja) 2014-08-20 2016-04-04 ヤフー株式会社 応答生成装置、応答生成方法及び応答生成プログラム
JP2016071849A (ja) 2014-09-23 2016-05-09 ネイバー コーポレーションNAVER Corporation メッセンジャの対話内容に基づいて推薦検索語を提供する方法とシステム、および記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
内山 武尊 外,ライブ論文 Word2Vecを用いた類義語によるコード片検索の検討,レクチャーノート/ソフトウェア学42 ソフトウェア工学の基礎XXIII ,日本,株式会社近代科学社,2016年12月31日,pp. 257--258
松尾 茂起,WordPressで加速させる!ソーシャルメディア時代の[新]SEO戦略マニュアル,第1版,日本,株式会社秀和システム,2012年04月01日,p. 135

Also Published As

Publication number Publication date
US10824804B2 (en) 2020-11-03
US20180365230A1 (en) 2018-12-20
KR102027471B1 (ko) 2019-10-01
US11734508B2 (en) 2023-08-22
US20200410165A1 (en) 2020-12-31
KR20180137932A (ko) 2018-12-28
JP2019008783A (ja) 2019-01-17

Similar Documents

Publication Publication Date Title
JP7194515B2 (ja) ソーシャルネットワークコンテンツを基盤に単語ベクトル化技法を利用して日常言語に拡張するための方法およびシステム
JP6419905B2 (ja) クエリについての逆演算子の使用
JP6193518B2 (ja) オンライン・ソーシャル・ネットワーク上での検索クエリ対話
JP5944611B1 (ja) オンライン・ソーシャル・ネットワーク上でのクエリについての検索意図
JP6054577B2 (ja) オンライン・ソーシャル・ネットワークにおける検索クエリのための静的ランク付け
US20190188285A1 (en) Image Search with Embedding-based Models on Online Social Networks
US20180101540A1 (en) Diversifying Media Search Results on Online Social Networks
US10951555B2 (en) Providing local service information in automated chatting
JP2019532445A (ja) 多義コードを使用した類似度検索
US20170097984A1 (en) Method and system for generating a knowledge representation
CN105045799A (zh) 可搜索索引
US11263664B2 (en) Computerized system and method for augmenting search terms for increased efficiency and effectiveness in identifying content
US20170235726A1 (en) Information identification and extraction
US9330135B2 (en) Method, apparatus and computer readable recording medium for a search using extension keywords
US11681756B2 (en) Method and electronic device for quantifying user interest
KR101981136B1 (ko) 추천 컨텐츠 제공 시스템, 방법 및 프로그램
KR102322668B1 (ko) 콘텐츠 크리에이터의 창작활동 활성화를 위한 다중 플랫폼 서비스 제공 시스템
JP2023162154A (ja) 地域知識グラフに基づいて推薦情報を提供する方法、コンピュータ装置、およびコンピュータプログラム
KR20200097949A (ko) 키워드 관계 구조를 이용한 동의어 추출 방법 및 시스템
US10223728B2 (en) Systems and methods of providing recommendations by generating transition probability data with directed consumption
KR102195191B1 (ko) 키워드 관계 구조를 이용한 신규 키워드 추출 방법 및 시스템
CN110147488B (zh) 页面内容的处理方法、处理装置、计算设备及存储介质
KR102192376B1 (ko) 음역 모델을 이용하여 외래 동의어를 자동 추출하는 방법 및 시스템
KR20230065749A (ko) 별점을 대체하는 키워드 리뷰를 위한 방법, 시스템, 및 컴퓨터 프로그램
CN116578716A (zh) 数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20210414

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210512

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20210412

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221212

R150 Certificate of patent or registration of utility model

Ref document number: 7194515

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350