JP7042888B1 - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
JP7042888B1
JP7042888B1 JP2020185403A JP2020185403A JP7042888B1 JP 7042888 B1 JP7042888 B1 JP 7042888B1 JP 2020185403 A JP2020185403 A JP 2020185403A JP 2020185403 A JP2020185403 A JP 2020185403A JP 7042888 B1 JP7042888 B1 JP 7042888B1
Authority
JP
Japan
Prior art keywords
content
information processing
morphemes
determined
substring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020185403A
Other languages
English (en)
Other versions
JP2022074948A (ja
Inventor
拓也 門脇
飛鳥 嶋田
ジェウック ホワン
誠吾 赤池
拓 下村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2020185403A priority Critical patent/JP7042888B1/ja
Application granted granted Critical
Publication of JP7042888B1 publication Critical patent/JP7042888B1/ja
Publication of JP2022074948A publication Critical patent/JP2022074948A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】第1コンテンツの内容に応じた第2コンテンツを配信する際に、第1コンテンツと第2コンテンツとの整合性を向上させる情報処理装置、情報処理方法及び情報処理プログラムを提供する。【解決手段】情報処理装置と、コンテンツサーバとが、所定の通信網を介して通信可能に接続されるシステムにおいて、情報処理装置100は、制御部130に、第1コンテンツに含まれる文字列を分かち書きした形態素群のうち、ナレッジデータベースを参照して複数の形態素が同一視可能か否かを判定する判定部132と、判定部132によって、同一視可能と判定された複数の形態素を、複数の形態素を含むエンティティの識別情報で管理する管理情報に変換する変換部133と、変換部133により変換された管理情報を用いて判定された複数の形態素の重要度に基づいて、複数の形態素と関連する第2コンテンツを配信する配信部135と、を備える。【選択図】図4

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。
従来、ナレッジデータベースを用いて、コンテンツ内の同音異義語が有する意味を推定する技術が知られている。
特開2019-074843号公報
しかしながら、従来の技術では、第1コンテンツの内容に応じた第2コンテンツを配信する際に、第1コンテンツと第2コンテンツとの整合性を向上させる余地があった。
本願は、上記に鑑みてなされたものであって、第1コンテンツの内容に応じた第2コンテンツを配信する際に、第1コンテンツと第2コンテンツとの整合性を向上させることを目的とする。
本願に係る情報処理装置は、第1コンテンツに含まれる文字列を分かち書きした形態素群のうち、ナレッジデータベースを参照して複数の形態素が同一視可能か否かを判定する判定部と、前記判定部によって、同一視可能と判定された複数の形態素を、当該複数の形態素を含むエンティティの識別情報で管理する管理情報に変換する変換部と、前記変換部により変換された管理情報を用いて判定された前記複数の形態素の重要度に基づいて、当該複数の形態素と関連する第2コンテンツを配信する配信部と、を有することを特徴とする。
実施形態の一態様によれば、第1コンテンツの内容に応じた第2コンテンツを配信する際に、第1コンテンツと第2コンテンツとの整合性を向上させることができるという効果を奏する。
図1は、実施形態に係る情報処理の一例を示す図である。 図2は、実施形態に係る情報処理システムの構成例を示す図である。 図3は、実施形態に係る端末装置の構成例を示す図である。 図4は、実施形態に係る情報処理装置の構成例を示す図である。 図5は、実施形態に係る第1コンテンツ情報記憶部の一例を示す図である。 図6は、実施形態に係る第2コンテンツ情報記憶部の一例を示す図である。 図7は、実施形態に係るナレッジデータベースの一例を示す図である。 図8は、実施形態に係るコンテンツサーバの構成例を示す図である。 図9は、実施形態に係る情報処理の一例を示すフローチャートである。 図10は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
(実施形態)
〔1.情報処理の一例〕
近年、クッキー(cookie)を利用した広告配信の制限が厳しくなってきているため、クッキーに依存しない広告配信の仕組みの確立が重要になると考えられる。
図1は、実施形態に係る情報処理システム1の情報処理の一例を示す図である。図1では、ユーザU11に対してコンテンツA(第1コンテンツ)の配信を行う場合を示す。なお、以下実施形態では、コンテンツAに含まれるキーワードと関連する広告配信を行う広告ターゲティングを説明する。なお、広告ターゲティングには、広告を配信しないように除外する場合も含まれるものとする。
コンテンツサーバ200は、ユーザU11からコンテンツAの配信要求を受け付けると(ステップS101)、コンテンツAのコンテンツ情報を情報処理装置100に送信する(ステップS102)。
情報処理装置100は、コンテンツAに含まれる文字列(文字情報)を分かち書きした形態素群のうち、ナレッジデータベース123を参照して複数の形態素が同一視可能か否かを判定する(ステップS103)。例えば、情報処理装置100は、コンテンツA11に含まれる形態素W11と形態素W12とが同一の人物を示す場合には、形態素W11と形態素W12とが同一視可能であると判定する。例えば、形態素W12が、形態素W11の別名の名前で知られる場合等である。
ここで、ナレッジデータベース123について説明する。ナレッジデータベース123には、各種の知識が体系化、組織化された状態で登録されている。例えば、ナレッジデータベース123には、登録される要素であるエンティティENと、エンティティEN間の関係性を示す情報(以下、「関係情報」と表記する)とが登録されている。エンティティENは、実世界における人物、物体、建築物等の主語となりうる各種の物、職業や国籍等といった属性、各種の状態や事象等、世の中における各種の物事に対応する情報である。また、関係情報は、2つのエンティティEN間の関係性を示す情報である。また、より具体的には、ナレッジデータベース123には、情報の紐付け情報が格納される。例えば、ナレッジデータベース123には、2つのデータと、その関係性を示す情報とが格納されている。例えば、ナレッジデータベース123には、2つの情報と関係性との3つ組ごとに情報が登録されている。
情報処理装置100は、同一視可能と判定された複数の形態素を、その複数の形態素を含むエンティティENの識別情報で管理する管理情報KNに変換する(ステップS104)。例えば、情報処理装置100は、形態素W11と形態素W12とが同一視可能と判定された場合には、形態素W11と形態素W12とを含むエンティティEN11に基づく管理情報KN11に変換する。例えば、コンテンツA11中に、形態素W11と形態素W12とが含まれる場合には、形態素W11及び形態素W12それぞれを、管理情報KN11に変換する。
ここで、エンティティENとは、複数の形態素をまとめて同時に管理するための情報であり、エンティティEN11は、例えば、「name=「〇×〇×1」、aka(also known as)=「〇×1」」といった情報を示すデータを有する。また、エンティティEN11の識別情報が、例えば、「29653574」の場合には、エンティティEN11に基づく管理情報KN11は、例えば、「29653574-〇×〇×1」で表記される。また、管理情報KN11には、エンティティEN11が含む複数の形態素の情報と、エンティティEN11の識別情報とが含まれる。
情報処理装置100は、管理情報KNに基づく複数の形態素の重要度を算出する(ステップS105)。例えば、情報処理装置100は、形態素W11と形態素W12とを含む管理情報KN11の出現頻度に基づいて、形態素W11と形態素W12との重要度を算出する。例えば、情報処理装置100は、形態素W11及び形態素W12と同一視可能ではない形態素W13よりも、管理情報KN11の出現頻度が高い場合には、形態素W11及び形態素W12の重要度を高く算出する。そして、情報処理装置100は、各形態素の重要度に基づいて、重要度が高い形態素を判定する。
ここで、情報処理装置100は、例えば過去一週間のログから出現頻度を算出してもよい。また、情報処理装置100は、重要度が高い形態素に関する情報を、候補も含めて第2コンテンツを提供する提供者Pに通知してもよい。また、情報処理装置100は、提供者Pが選択した形態素に基づいて、形態素の重要度を判定してもよい。例えば、情報処理装置100は、重要度が最も高い形態素がW21であったとしても、提供者Pが形態素W22を選択した場合には、形態素W22の重要度を形態素W21よりも高く判定してもよい。また、例えば、情報処理装置100は、除外したい形態素を提供者Pに選択させてもよい。例えば、情報処理装置100は、形態素W21の重要度を高く判定した場合であっても、提供者Pが除外したい形態素に選択した場合には、形態素W21を除外対象と判定してもよい。
情報処理装置100は、管理情報KNを用いて重要度が高いと判定された形態素に関する情報をコンテンツサーバ200に送信する(ステップS106)。
コンテンツサーバ200は、管理情報KNを用いて判定された形態素に関するコンテンツB(第2コンテンツ)を、ユーザU11の端末装置10に配信する(ステップS107)。例えば、コンテンツサーバ200は、コンテンツAに含まれる所定の領域に、コンテンツBが表示されるように配信する。
ここで、コンテンツAに対する具体的な処理の流れを説明する。例えば、コンテンツAが、「頭部に打球の直撃を受けて軽度の脳振とうと診断された「△△1」の「〇×〇×1」投手が12日、SNSで近況を報告した。」等の文字列を含むニュース記事である場合には、形態素解析によって、「頭部/に/打球/の/直撃/を/受け/て/軽度/の/脳/振とう/と/診断/さ/れ/た/「△△1」/の/「〇×〇×1」/投手/が/12日、/SNS/で/近況/を/報告/した。」等のように分かち書きされる。なお、分かち書きされた切れ目(区切り)は、「/」で表記されている。
そして、分かち書きされた文字列は、例えば、名詞以外や、「あれ、これ、の、が」等のストップワードを除去するとともに、一般名詞の表記揺れを統一することにより、「頭部/打球/直撃/軽度/脳/振とう/診断/「△△1」/「〇×〇×1」/投手/12日/SNS/近況/報告」等のように変換される。
そして、管理情報KNを用いて、「頭部/打球/直撃/軽度/「227958123-脳」/振とう/診断/「28452162-△△1」/「29653574-〇×〇×1」/投手/12日/SNS/近況/報告」等のように変換される。
そして、重要語ほど高いスコアを付けるtf-idf等のスコアリング方法を用いて、各形態素の重要度を算出することで、重要度が高い形態素をコンテンツAの重要語と判定する。例えば、「頭部」=0.1、「打球」=0.2、・・・、「29653574-〇×〇×1」=0.7、・・・、「報告」=0.1である場合には、スコアの高い「29653574-〇×〇×1」がコンテンツAの重要語に関すると判定する。なお、tf-idfでは、tfが出現頻度を示し、idfは逆数を示すため、tf-idfを用いることにより、特定のコンテンツAにしか出てこないけど、出現頻度が高い形態素のスコアを高く算出することができる。
これにより、コンテンツサーバ200は、例えば、コンテンツBの提供者Pにとって適切なキーワードを含むコンテンツAに、コンテンツBが表示されるように配信することができる。また、コンテンツサーバ200は、例えば、コンテンツBの提供者PにとってNGワード(除外対象となるワード)を含むコンテンツAに、コンテンツBが表示されないようにすることができる。例えば、コンテンツAが、提供者Pのイメージを低下させるワードを含む場合である。具体的には、提供者Pの事故、不謹慎、及び不祥事等に関するワードである。
これにより、情報処理装置100は、コンテンツAとコンテンツBとの整合性を向上させることができるため、コンテンツ(A及びB)を用いた広告ターゲティングを適切に行うことができる。これにより、情報処理装置100は、クッキーに依存しない広告配信を適切に行うことができる。
〔2.情報処理システムの構成〕
図2に示す情報処理システム1について説明する。図2に示すように、情報処理システム1は、端末装置10と、情報処理装置100と、コンテンツサーバ200とが含まれる。端末装置10と、情報処理装置100と、コンテンツサーバ200とは所定の通信網(ネットワークN)を介して、有線または無線により通信可能に接続される。図2は、実施形態に係る情報処理システム1の構成例を示す図である。なお、図2に示した情報処理システム1には、複数台の端末装置10や、複数台の情報処理装置100や、複数台のコンテンツサーバ200が含まれてもよい。
端末装置10は、ユーザUによって利用される情報処理装置である。端末装置10は、実施形態における処理を実現可能であれば、どのような装置であってもよい。また、端末装置10は、スマートフォンや、タブレット型端末や、ノート型PCや、デスクトップPCや、携帯電話機や、PDA等の装置であってもよい。図1に示す例においては、端末装置10がデスクトップPCである場合を示す。
情報処理装置100は、コンテンツAに含まれる文字列を分かち書きした形態素群のうち、重要度が高い形態素を判定するために用いられる。情報処理装置100は、例えば、PC、WS(Work Station)等の情報処理装置であり、コンテンツサーバ200等からネットワークNを介して送信されてきた情報に基づいて処理を行う。
コンテンツサーバ200は、コンテンツAと整合性の高いコンテンツBがコンテンツAの所定の領域に表示されるようにコンテンツBを配信するために用いられる。コンテンツサーバ200は、例えば、PC、WS等の情報処理装置であり、情報処理装置100等からネットワークNを介して送信されてきた情報に基づいて処理を行う。
〔3.端末装置の構成〕
次に、図3を用いて、実施形態に係る端末装置10の構成について説明する。図3は、実施形態に係る端末装置10の構成例を示す図である。図3に示すように、端末装置10は、通信部11と、入力部12と、出力部13と、制御部14とを有する。
(通信部11)
通信部11は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部11は、所定のネットワークNと有線又は無線で接続され、所定のネットワークNを介して、情報処理装置100等との間で情報の送受信を行う。
(入力部12)
入力部12は、ユーザUからの各種操作を受け付ける。図1に示す例では、ユーザU11からの各種操作を受け付ける。例えば、入力部12は、タッチパネル機能により表示面を介してユーザUからの各種操作を受け付けてもよい。また、入力部12は、端末装置10に設けられたボタンや、端末装置10に接続されたキーボードやマウスからの各種操作を受け付けてもよい。
(出力部13)
出力部13は、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ等によって実現されるタブレット端末等の表示画面であり、各種情報を表示するための表示装置である。例えば、出力部13は、コンテンツサーバ200から取得したコンテンツ(A及びB)を表示する。
(制御部14)
制御部14は、例えば、コントローラ(controller)であり、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、端末装置10内部の記憶装置に記憶されている各種プログラムがRAM(Random Access Memory)を作業領域として実行されることにより実現される。例えば、この各種プログラムには、端末装置10にインストールされたアプリケーションのプログラムが含まれる。例えば、この各種プログラムには、コンテンツサーバ200から取得したコンテンツ(A及びB)を表示するアプリケーションのプログラムが含まれる。また、制御部14は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
図3に示すように、制御部14は、受信部141と、送信部142とを有し、以下に説明する情報処理の作用を実現または実行する。
(受信部141)
受信部141は、各種情報を受信する。受信部141は、外部の情報処理装置から各種情報を受信する。受信部141は、情報処理装置100等の他の情報処理装置から各種情報を受信する。例えば、受信部141は、コンテンツ(A及びB)を受信する。
(送信部142)
送信部142は、外部の情報処理装置へ各種情報を提供する。送信部142は、外部の情報処理装置へ各種情報を送信する。送信部142は、情報処理装置100等の他の情報処理装置へ各種情報を送信する。例えば、送信部142は、ユーザUの操作に従って、コンテンツAの配信要求を送信する。
〔4.情報処理装置の構成〕
次に、図4を用いて、実施形態に係る情報処理装置100の構成について説明する。図4は、実施形態に係る情報処理装置100の構成例を示す図である。図4に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、情報処理装置100は、情報処理装置100の管理者から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
(通信部110)
通信部110は、例えば、NIC等によって実現される。そして、通信部110は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、コンテンツサーバ200等との間で情報の送受信を行う。
(記憶部120)
記憶部120は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図4に示すように、記憶部120は、第1コンテンツ情報記憶部121と、第2コンテンツ情報記憶部122と、ナレッジデータベース123とを有する。
第1コンテンツ情報記憶部121は、コンテンツAに含まれるコンテンツ情報を記憶する。ここで、図5に、実施形態に係る第1コンテンツ情報記憶部121の一例を示す。図5に示すように、第1コンテンツ情報記憶部121は、「第1コンテンツID」、「第1コンテンツ情報」といった項目を有する。
「第1コンテンツID」は、コンテンツAを識別するための識別情報を示す。「第1コンテンツ情報」は、コンテンツAに含まれるコンテンツ情報を示す。図5に示す例では、「第1コンテンツ情報」に「第1コンテンツ#11」や「第1コンテンツ#12」といった概念的な情報が格納される例を示したが、実際には、HTMLで記載された情報等が格納される。
すなわち、図5では、第1コンテンツID「A11」によって識別される第1コンテンツのコンテンツ情報が「第1コンテンツ#11」である例を示す。
第2コンテンツ情報記憶部122は、コンテンツBに含まれるコンテンツ情報を記憶する。ここで、図6に、実施形態に係る第2コンテンツ情報記憶部122の一例を示す。図6に示すように、第2コンテンツ情報記憶部122は、「第2コンテンツID」、「第2コンテンツ情報」といった項目を有する。
「第2コンテンツID」は、コンテンツBを識別するための識別情報を示す。「第2コンテンツ情報」は、コンテンツBに含まれるコンテンツ情報を示す。図6に示す例では、「第2コンテンツ情報」に「第2コンテンツ#11」や「第2コンテンツ#12」といった概念的な情報が格納される例を示したが、実際には、HTMLで記載された情報等が格納される。
すなわち、図6では、第2コンテンツID「B11」によって識別される第2コンテンツのコンテンツ情報が「第2コンテンツ#11」である例を示す。
ナレッジデータベース123は、管理情報KNを記憶する。ここで、図7に、実施形態に係るナレッジデータベース123の一例を示す。図7に示すように、ナレッジデータベース123は、「ナレッジデータID」、「エンティティID」、「複数の形態素」といった項目を有する。
「ナレッジデータID」は、管理情報KNを識別するための識別情報を示す。「エンティティID」は、エンティティENを識別するための識別情報を示す。「複数の形態素」は、エンティティENが示す同一視可能な複数の形態素を示す。
すなわち、図7では、ナレッジデータID「KN11」によって識別されるエンティティENの識別情報が「EN11」であり、複数の形態素が「W11、W12」である例を示す。
(制御部130)
制御部130は、コントローラであり、例えば、CPUやMPU等によって、情報処理装置100内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現される。
図4に示すように、制御部130は、取得部131と、判定部132と、変換部133と、算出部134と、配信部135とを有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部130の内部構成は、図4に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
(取得部131)
取得部131は、各種情報を取得する。取得部131は、外部の情報処理装置から各種情報を取得する。取得部131は、コンテンツサーバ200等の他の情報処理装置から各種情報を取得する。
取得部131は、記憶部120から各種情報を取得する。取得部131は、第1コンテンツ情報記憶部121や第2コンテンツ情報記憶部122やナレッジデータベース123から各種情報を取得する。また、取得部131は、取得した各種情報を記憶部120に格納する。取得部131は、第1コンテンツ情報記憶部121や第2コンテンツ情報記憶部122やナレッジデータベース123に各種情報を格納する。
取得部131は、コンテンツAに含まれるコンテンツ情報を取得する。例えば、取得部131は、コンテンツAに含まれる文字列に関する情報を取得する。
(判定部132)
判定部132は、ナレッジデータベース123を参照して複数の形態素が同一視可能か否かを判定する。例えば、判定部132は、一の形態素と同一の対象を示すが、一の形態素とは別の表記で知られている二の形態素が同一のコンテンツA中に含まれる場合には、一の形態素と二の形態素とが同一視可能であると判定する。
判定部132は、コンテンツAに含まれる文字列を分かち書きした形態素群のうち、固有表現のキーワードを判定する。例えば、判定部132は、「〇×〇×1」や国家公務員等の固有名詞といったコンテンツAを把握する上で重要な要素になり得るキーワードを判定する。そして、判定部132は、ナレッジデータベース123を参照することにより、固有表現のキーワードと同一視可能なキーワードが含まれるか否かを判定して、含まれる場合には、同一視可能なキーワードを管理情報KNに変換すると判定する。また、判定部132は、固有表現のキーワードと判定されたキーワードを、後述する変換部133による変換の対象とすると判定する。
判定部132は、例えば、固有表現を判定する第1分類器を用いて、コンテンツAに含まれる文字列を分かち書きした形態素群のうち、固有表現のキーワードを判定する。
判定部132は、コンテンツAに含まれる文字列を分かち書きした形態素群のうち、一般名詞の表記揺れを判定する。例えば、判定部132は、「コンピュータ」及び「コンピューター」のような一般名詞の表記揺れを判定する。
判定部132は、例えば、表記揺れを判定する第2分類器を用いて、コンテンツAに含まれる文字列を分かち書きした形態素群のうち、一般名詞の表記揺れを判定する。
ここで、第1分類器では、表記揺れの判定ができず、また、第2分類器では、固有表現の判定ができないものとする。そこで、判定部132は、第1分類器と第2分類器とを用いて、表記揺れと固有表現との判定を行うものとする。
判定部132は、第1分類器による分かち書き結果と、第2分類器による分かち書き結果とを比較して、分かち書きの切れ目が一致するか否かを判定する。例えば、判定部132は、「〇〇は国家公務員試験である」を分かち書きした場合であって、第1分類器による分かち書き結果に、「国家公務員」という固有表現が含まれる場合には、第2分類器による分かち書き結果が、例えば、「〇〇/は/国家公務員/試験/で/ある」や、「〇〇/は/国家/公務員/試験/で/ある」である場合には、どちらも「公務員」の終わりの部分に切れ目があるため、切れ目が一致すると判定する。
判定部132は、後者の場合、「国家」と「公務員」との間に切れ目があるが、「は」と「国家」との間と、「公務員」と「試験」との間にも切れ目があるため、「国家」と「公務員」との間を繋げれば一つの語とみなせるため、切れ目が一致すると判定する。この場合、判定部132は、「国家公務員」の固有表現を管理情報KNに変換する候補と判定する。
また、例えば、判定部132は、「〇〇は国家公務員試験である」を分かち書きした場合であって、第1分類器による分かち書き結果に、「国家公務員」という固有表現が含まれる場合には、第2分類器による分かち書き結果が、例えば、「〇〇/は/国家公務員試験/で/ある」や、「〇〇/は/国家/公務員試験/で/ある」である場合には、どちらも「公務員」の終わりの部分に切れ目がないため、切れ目が一致しないと判定する。具体的には、判定部132は、「公務員」と「試験」とに切れ目がないため、切れ目が一致しないと判定する。
第2分類器は、「国家公務員試験」や「公務員試験」を一つの語とみなすため、第1分類器による結果と異なる。また、後者の場合、「国家」と「公務員試験」とを繋げても「国家公務員試験」となり、「国家公務員」を一つの語とみなすことができないため、第1分類器による結果と異なる。この場合、判定部132は、「国家公務員」の固有表現を管理情報KNに変換する候補にならないと判定する。
判定部132は、コンテンツAに含まれる文字列を分かち書きした形態素群のうち、名詞以外の形態素(例えば、動詞や形容詞)、ストップワード、数値に変換可能な形態素(例えば、携帯番号や株価情報)、及び文字・記号一文字(例えば、アルファベット一文字)からなる形態素等を判定する。そして、判定部132は、これらの形態素を、後述する変換部133による変換の対象から除外すると判定する。また、判定部132は、これらの形態素を、算出部134による重要度の判定の対象から除外すると判定する。このように、判定部132は、所定の条件を満たさないと判定された形態素を、算出部134による重要度の判定の対象から除外すると判定する。
判定部132は、コンテンツAに含まれる文字列を分かち書きした形態素群のうち、第1分類器によって、URLやメール等の所定のアドレスを示す固有表現を判定する。そして、判定部132は、所定のアドレスを示す固有表現を、後述する変換部133による変換や、算出部134による重要度の判定の対象から除外すると判定する。
判定部132は、管理情報KNに変換された一の形態素の第1表記と関連する第2表記であって、固有表現の判定時において、固有表現のキーワードと判定されなかったキーワードである第2表記がコンテンツAに含まれる場合、第2表記の形態素を、第1表記と同一の管理情報KNに変換すると判定する。例えば、第1分類器が、第2表記を固有名詞と判定できなかった場合である。この場合の判定部132による処理は、第1分類器が固有名詞と判定できなかったことに対する救済措置である。判定部132は、後述する変換部133による変換履歴に基づいて、処理を行う。
ここで、第2表記には、例えば、第1表記と同一視可能な表記、正規化すると第1表記になる表記、及び第1表記の複合語の表記等が含まれる。具体的な例を挙げると、第1表記が「〇〇××××」であり、「〇〇××××」が「28802290-〇〇××××」の管理情報KNに変換可能な場合には、その変換履歴に基づいて、同一コンテンツA中に含まれる、第1表記と同一視可能な「〇〇××××」や「××××お兄さん(「〇〇××××」のaka)」等を、第2表記と判定して、いずれも「28802290-〇〇××××」の管理情報KNに変換すると判定する。
また、例えば、第1表記が「〇〇××××」であり、「〇〇××××」が「28802290-〇〇××××」の管理情報KNに変換可能な場合には、その変換履歴に基づいて、同一コンテンツA中に含まれる、正規化すると第1表記になる表記である「〇〇×/×××」等を、第2表記と判定して、「28802290-〇〇××××」の管理情報KNに変換すると判定する。
また、例えば、第1表記が「〇〇××××」であり、「〇〇××××」が「28802290-〇〇××××」の管理情報KNに変換可能な場合には、その変換履歴に基づいて、同一コンテンツA中に含まれる、第1表記の複合語の表記である「××××/お兄さん」等を、第2表記と判定して、「28802290-〇〇××××」の管理情報KNに変換すると判定する。
(変換部133)
変換部133は、判定部132による判定結果に基づいて、管理情報KNに変換する。例えば、変換部133は、固有表現と判定された一の形態素と同一視可能な二の形態素をコンテンツA中でマッチングさせることにより、マッチングした場合には、二の形態素を一の形態素の管理情報KNに変換する。
(算出部134)
算出部134は、コンテンツAに含まれる文字列を分かち書きした各形態素の重要度を算出する。例えば、算出部134は、同一のコンテンツA中の各形態素の出現頻度に基づいて、各形態素の重要度を算出する。例えば、算出部134は、重要語ほど高いスコアを付けるtf-idf等のスコアリング方法を用いて、各形態素の重要度を算出する。
算出部134は、管理情報KNに基づく複数の形態素の重要度を算出する。また、算出部134は、管理情報KNに変換された複数の形態素を含む各形態素の重要度を算出することで、判定部132は、重要度の高い形態素を判定する。
算出部134は、コンテンツAに含まれる文字列を分かち書きした形態素群に、一般名詞の表記揺れが含まれる場合には、表記揺れが解消した解消後の形態素の重要度を算出する。
(配信部135)
配信部135は、コンテンツAに含まれる文字列を分かち書きした形態素群のうち、重要度が高いと判定された形態素と関連するコンテンツBを配信する。また、配信部135は、各形態素の重要度に基づいて、配信するコンテンツBの候補を決定する。また、配信部135は、配信候補に決定したコンテンツBに関する情報を、コンテンツサーバ200に送信する。
〔5.コンテンツサーバの構成〕
次に、図8を用いて、実施形態に係るコンテンツサーバ200の構成について説明する。図8は、実施形態に係るコンテンツサーバ200の構成例を示す図である。図8に示すように、コンテンツサーバ200は、通信部210と、記憶部220と、制御部230とを有する。なお、コンテンツサーバ200は、コンテンツサーバ200の管理者から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
(通信部210)
通信部210は、例えば、NIC等によって実現される。そして、通信部210は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、情報処理装置100等との間で情報の送受信を行う。
(記憶部220)
記憶部220は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図4に示すように、記憶部220は、第1コンテンツ情報記憶部221と、第2コンテンツ情報記憶部222とを有する。なお、第1コンテンツ情報記憶部221及び第2コンテンツ情報記憶部222は、第1コンテンツ情報記憶部121及び第2コンテンツ情報記憶部122と同様の情報を記憶するため、説明を省略する。
(制御部230)
制御部230は、コントローラであり、例えば、CPUやMPU等によって、コンテンツサーバ200内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部230は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現される。
図8に示すように、制御部230は、受付部231と、提供部232と、配信部233とを有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部230の内部構成は、図8に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
(受付部231)
受付部231は、ユーザUからのコンテンツAの配信要求を受け付ける。例えば、受付部231は、端末装置10から送信された配信要求を受け付ける。
(提供部232)
提供部232は、コンテンツAに含まれるコンテンツ情報を提供する。
(配信部233)
配信部233は、コンテンツ(A及びB)を配信する。例えば、配信部233は、情報処理装置100から提供されたコンテンツBに関する情報に基づいて、コンテンツBを配信する。
〔6.情報処理のフロー〕
次に、図9を用いて、実施形態に係る情報処理システム1による情報処理の手順について説明する。図10は、実施形態に係る情報処理システム1による情報処理の手順を示すフローチャートである。
図9に示すように、情報処理装置100は、第1コンテンツのコンテンツ情報を取得する(ステップS201)。また、情報処理装置100は、複数の形態素が同一視可能か否かを判定する(ステップS202)。情報処理装置100は、複数の形態素が同一視可能と判定した場合(ステップS202;YES)、同一視可能と判定された複数の形態素を変換する(ステップS203)。そして、情報処理装置100は、各形態素の重要度を算出する(ステップS204)。また、情報処理装置100は、複数の形態素が同一視可能でないと判定した場合(ステップS202;NO)、ステップS204の処理を行う。そして、情報処理装置100は、重要度が高いと判定された形態素と関連する第2コンテンツを配信する(ステップS205)。
〔7.変形例〕
上述した実施形態に係る情報処理システム1は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、情報処理システム1の他の実施形態について説明する。
上記実施形態では、情報処理装置100が、コンテンツAに含まれるキーワードに基づいて広告配信を行うキーワードターゲティングを行う場合を示したが、この例に限られない。情報処理装置100は、コンテンツAのトピックと関連する広告配信を行うトピックターゲティングを行ってもよい。以下、トピックターゲティングの情報処理を説明する。
情報処理装置100は、コンテンツAのコンテンツ情報を取得する。そして、情報処理装置100は、コンテンツAに含まれる文字列を分かち書きした形態素群のうち、上記実施形態と同様の方法を用いて、各形態素の重要度を判定する。そして、情報処理装置100は、重要度が高いと判定された形態素に基づいて、コンテンツAのトピックを推定する。なお、トピックの推定処理は、例えば、判定部132により行われるものとする。そして、情報処理装置100は、推定されたトピックと関連するコンテンツBを配信する。
これにより、コンテンツサーバ200は、コンテンツBの提供者Pにとって適切なトピックのコンテンツAに、コンテンツBが表示されるように配信することができる。また、コンテンツサーバ200は、例えば、コンテンツBの提供者PにとってNGなトピックのコンテンツAに、コンテンツBが表示されないようにすることができる。例えば、コンテンツAが、提供者Pのイメージを低下させるトピックに関する場合である。具体的には、提供者Pの事故、不謹慎、及び不祥事等に関するトピックである。具体的な例を挙げると、提供者Pが自動車会社であり、最近不祥事を起こした会社である場合には、経済ニュースをNGトピックとして、経済ニュースに関する記事であるコンテンツAに、提供者PのコンテンツBが表示されないようにすることができる。また、同様の場合において、コンテンツAが自動者に関する記事である場合には、提供者PのコンテンツBが表示されるように配信することができる。
上記実施形態では、情報処理装置100が、第1分類器による分かち書き結果と、第2分類器による分かち書き結果とを比較して、分かち書きの切れ目が一致する場合に、所定の固有表現を管理情報KNに変換する場合を示した。ここで、情報処理装置100は、固有表現を判定可能であって、且つ、表記揺れを判定可能な第3分類器を用いてもよい。これにより、情報処理装置100は、固有表現の判定と、表記揺れの判定とを同時に同一の分類器を用いて行うことができる。また、情報処理装置100は、第3分類器による分かち書き結果に基づいて、所定の固有表現を管理情報KNに変換してもよい。この場合、情報処理装置100は、分かち書き結果の比較を行わずに、固有表現の判定を行ってもよい。
上記実施形態では、情報処理装置100が、tf-idfのスコアリング方法を用いて、各形態素の重要度を算出する場合を示したが、この例に限られない。情報処理装置100は、重要語ほど高いスコアを付けるスコアリング方法であれば、どのようなスコアリング方法を用いて、各形態素の重要度を算出してもよい。
〔8.効果〕
上述してきたように、実施形態に係る情報処理装置100は、判定部132と、変換部133と、配信部135とを有する。判定部132は、第1コンテンツに含まれる文字列を分かち書きした形態素群のうち、ナレッジデータベース123を参照して複数の形態素が同一視可能か否かを判定する。また、変換部133は、判定部132によって、同一視可能と判定された複数の形態素を、複数の形態素を含むエンティティENの識別情報で管理する管理情報KNに変換する。また、配信部135は、変換部133により変換された管理情報KNを用いて判定された複数の形態素の重要度に基づいて、複数の形態素と関連する第2コンテンツを配信する。
これにより、実施形態に係る情報処理装置100は、同一視可能な複数の形態素をまとめて重要度を判定することができるため、より整合性の高い第2コンテンツを配信することができる。
また、変換部133は、固有表現と判定された複数の形態素を管理情報KNに変換する。
これにより、実施形態に係る情報処理装置100は、固有表現に基づくキーワードターゲティングを行うことができるため、適切に広告ターゲティングを行うことができる。
また、変換部133は、固有表現を判定する第1分類器による分かち書き結果と、表記揺れを判定する第2分類器による分かち書き結果とを比較して、分かち書きの切れ目が一致するとみなされた場合に、管理情報KNに変換する。
これにより、実施形態に係る情報処理装置100は、固有表現のキーワードを適切に判定することができるため、より整合性の高い第2コンテンツを配信することができる。
また、変換部133は、固有表現を判定する第1分類器によって、文字列に所定のアドレスを示す固有表現が含まれると判定された場合には、所定のアドレスを示す固有表現を、変換の対象から除外する。
これにより、実施形態に係る情報処理装置100は、第1コンテンツを把握する上で重要な要素にならないと判定された不要な固有表現を除外することができるため、より整合性の高い第2コンテンツを配信することができる。
また、変換部133は、管理情報KNに変換された複数の形態素に含まれる一の形態素の第1表記と関連する第2表記が第1コンテンツに含まれる場合、第2表記の形態素を、第1表記と同一の識別情報で管理される管理情報KNに変換する。
これにより、実施形態に係る情報処理装置100は、固有表現として認識されてほしかったが精度の問題で認識されなかった語に対する救済措置を適切に行うことができる。
また、変換部133は、第2表記として、第1表記と同一視可能な表記、正規化すると第1表記になる表記、又は第1表記の複合語の表記が含まれる場合、第1表記と同一の識別情報で管理される管理情報KNに変換する。
これにより、実施形態に係る情報処理装置100は、固有表現として認識されてほしかったが精度の問題で認識されなかった語に対する救済措置を適切に行うことができる。
また、変換部133は、所定の条件を満たさないと判定された形態素を、重要度の判定の対象から除外する。
これにより、実施形態に係る情報処理装置100は、第1コンテンツを把握する上で重要な要素にならないと判定された不要な固有表現を除外することができるため、より整合性の高い第2コンテンツを配信することができる。
また、変換部133は、名詞以外と判定された形態素、ストップワードと判定された形態素、数値に変換可能と判定された形態素、又は文字一文字からなると判定された形態素を、重要度の判定の対象から除外する。
これにより、実施形態に係る情報処理装置100は、第1コンテンツを把握する上で重要な要素にならないと判定された不要な固有表現を除外することができるため、より整合性の高い第2コンテンツを配信することができる。
また、配信部135は、複数の形態素の、特定の第1コンテンツにおける出現頻度に基づいて算出された重要度に基づいて、複数の形態素と関連する第2コンテンツを配信する。
これにより、実施形態に係る情報処理装置100は、各形態素の出現頻度に基づいて配信する第2コンテンツを決定することができるため、より整合性の高い第2コンテンツを配信することができる。
また、配信部135は、形態素群に含まれる各形態素の重要度に基づいて、配信する第2コンテンツを決定する。
これにより、実施形態に係る情報処理装置100は、各形態素の重要度に基づいて配信する第2コンテンツを決定することができるため、より整合性の高い第2コンテンツを配信することができる。
また、配信部135は、表記揺れを判定する第2分類器によって判定された表記揺れが解消した解消後の形態素の重要度に基づいて、配信する第2コンテンツを決定する。
これにより、実施形態に係る情報処理装置100は、表記揺れを是正することで、各形態素の重要度を適切に反映することができるため、より整合性の高い第2コンテンツを配信することができる。
また、配信部135は、第1コンテンツに含まれる所定の領域に、第2コンテンツを配信する。
これにより、実施形態に係る情報処理装置100は、第1コンテンツの内容に応じた第2コンテンツを配信することで、第1コンテンツと第2コンテンツとの整合性を向上させることができる。
また、配信部135は、第2コンテンツとして、広告を配信する。
これにより、実施形態に係る情報処理装置100は、第1コンテンツに基づく広告ターゲティングを適切に行うことができる。
〔9.ハードウェア構成〕
また、上述してきた実施形態に係る端末装置10、情報処理装置100、及びコンテンツサーバ200は、例えば、図10に示すような構成のコンピュータ1000によって実現される。図1は、端末装置10、情報処理装置100、及びコンテンツサーバ200の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定の通信網を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを所定の通信網を介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る端末装置10、情報処理装置100、及びコンテンツサーバ200として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部14、130および230の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。
〔10.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上述してきた実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
1 情報処理システム
10 端末装置
100 情報処理装置
110 通信部
120 記憶部
121 第1コンテンツ情報記憶部
122 第2コンテンツ情報記憶部
123 ナレッジデータベース
130 制御部
131 取得部
132 判定部
133 変換部
134 算出部
135 配信部
200 コンテンツサーバ
210 通信部
220 記憶部
221 第1コンテンツ情報記憶部
222 第2コンテンツ情報記憶部
230 制御部
231 受付部
232 提供部
233 配信部
N ネットワーク

Claims (11)

  1. 第1コンテンツに含まれる文字列を分かち書きした形態素群のうち、複数の形態素を含むエンティティの関係性を示す情報が登録されたナレッジデータベースを参照して複数の形態素が同一視可能か否かを判定する判定部と、
    前記判定部によって、同一視可能と判定された複数の形態素を、前記エンティティの識別情報で管理する管理情報に変換する変換部と、
    前記変換部により変換された管理情報の前記第1コンテンツのコンテンツ中の出現頻度に基づいて判定された前記複数の形態素の重要度に基づいて、前記第1コンテンツに含まれる所定の領域に当該複数の形態素と関連する第2コンテンツを配信する配信部と、
    を有し、
    前記判定部は、
    部分文字列が固有表現であるか否かを判定する第1分類器により固有表現であると判定された部分文字列を単一の形態素とする分かち書き結果と、部分文字列が当該部分文字列と対応する所定の部分文字列の表示揺れであるか否かを判定する第2分類器により当該所定の部分文字列の表記揺れであると判定された部分文字列を単一の形態素とする分ち書き結果とに基づいて、前記文字列を分かち書きする
    ことを特徴とする情報処理装置。
  2. 前記変換部は、
    固有表現と判定された前記複数の形態素を前記管理情報に変換する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記変換部は、
    固有表現を判定する第1分類器によって、前記文字列に所定のアドレスを示す固有表現が含まれると判定された場合には、当該所定のアドレスを示す固有表現を、前記変換の対象から除外する
    ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記変換部は、
    前記管理情報に変換された前記複数の形態素に含まれる一の形態素の第1表記と同一視可能な表記、正規化すると当該第1表記になる表記、又は当該第1表記の複合語の表記である第2表記が前記第1コンテンツに含まれる場合、当該第2表記の形態素を、当該第1表記と同一の識別情報で管理される管理情報に変換する
    ことを特徴とする請求項1~のいずれか1項に記載の情報処理装置。
  5. 前記変換部は、
    所定の条件を満たさないと判定された形態素を、前記重要度の判定の対象から除外する
    ことを特徴とする請求項1~のいずれか1項に記載の情報処理装置。
  6. 前記変換部は、
    名詞以外と判定された形態素、ストップワードと判定された形態素、数値に変換可能と判定された形態素、又は文字一文字からなると判定された形態素を、前記重要度の判定の対象から除外する
    ことを特徴とする請求項に記載の情報処理装置。
  7. 前記配信部は、
    前記形態素群に含まれる各形態素の重要度に基づいて、配信する第2コンテンツを決定する
    ことを特徴とする請求項1~のいずれか1項に記載の情報処理装置。
  8. 前記配信部は、
    表記揺れを判定する第2分類器によって判定された表記揺れが解消した解消後の形態素の重要度に基づいて、配信する第2コンテンツを決定する
    ことを特徴とする請求項に記載の情報処理装置。
  9. 前記配信部は、
    前記第2コンテンツとして、広告を配信する
    ことを特徴とする請求項1~のいずれか1項に記載の情報処理装置。
  10. コンピュータが実行する情報処理方法であって、
    第1コンテンツに含まれる文字列を分かち書きした形態素群のうち、複数の形態素を含むエンティティの関係性を示す情報が登録されたナレッジデータベースを参照して複数の形態素が同一視可能か否かを判定する判定工程と、
    前記判定工程によって、同一視可能と判定された複数の形態素を、前記エンティティの識別情報で管理する管理情報に変換する変換工程と、
    前記変換工程により変換された管理情報の前記第1コンテンツのコンテンツ中の出現頻度に基づいて判定された前記複数の形態素の重要度に基づいて、前記第1コンテンツに含まれる所定の領域に当該複数の形態素と関連する第2コンテンツを配信する配信工程と、
    を含み、
    前記判定工程は、
    部分文字列が固有表現であるか否かを判定する第1分類器により固有表現であると判定された部分文字列を単一の形態素とする分かち書き結果と、部分文字列が当該部分文字列と対応する所定の部分文字列の表示揺れであるか否かを判定する第2分類器により当該所定の部分文字列の表記揺れであると判定された部分文字列を単一の形態素とする分ち書き結果とに基づいて、前記文字列を分かち書きする
    ことを特徴とする情報処理方法。
  11. 第1コンテンツに含まれる文字列を分かち書きした形態素群のうち、複数の形態素を含むエンティティの関係性を示す情報が登録されたナレッジデータベースを参照して複数の形態素が同一視可能か否かを判定する判定手順と、
    前記判定手順によって、同一視可能と判定された複数の形態素を、前記エンティティの識別情報で管理する管理情報に変換する変換手順と、
    前記変換手順により変換された管理情報の前記第1コンテンツのコンテンツ中の出現頻度に基づいて判定された前記複数の形態素の重要度に基づいて、前記第1コンテンツに含まれる所定の領域に当該複数の形態素と関連する第2コンテンツを配信する配信手順と、
    をコンピュータに実行させ
    前記判定手順は、
    部分文字列が固有表現であるか否かを判定する第1分類器により固有表現であると判定された部分文字列を単一の形態素とする分かち書き結果と、部分文字列が当該部分文字列と対応する所定の部分文字列の表示揺れであるか否かを判定する第2分類器により当該所定の部分文字列の表記揺れであると判定された部分文字列を単一の形態素とする分ち書き結果とに基づいて、前記文字列を分かち書きする
    ことを特徴とする情報処理プログラム。
JP2020185403A 2020-11-05 2020-11-05 情報処理装置、情報処理方法及び情報処理プログラム Active JP7042888B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020185403A JP7042888B1 (ja) 2020-11-05 2020-11-05 情報処理装置、情報処理方法及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020185403A JP7042888B1 (ja) 2020-11-05 2020-11-05 情報処理装置、情報処理方法及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP7042888B1 true JP7042888B1 (ja) 2022-03-28
JP2022074948A JP2022074948A (ja) 2022-05-18

Family

ID=81214546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020185403A Active JP7042888B1 (ja) 2020-11-05 2020-11-05 情報処理装置、情報処理方法及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP7042888B1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007286833A (ja) 2006-04-14 2007-11-01 Nippon Telegr & Teleph Corp <Ntt> 広告配信システムおよび広告配信プログラム
JP2014178902A (ja) 2013-03-14 2014-09-25 Ricoh Co Ltd 検索システム、検索語辞書生成装置、プログラム、記憶媒体及び検索語辞書生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007286833A (ja) 2006-04-14 2007-11-01 Nippon Telegr & Teleph Corp <Ntt> 広告配信システムおよび広告配信プログラム
JP2014178902A (ja) 2013-03-14 2014-09-25 Ricoh Co Ltd 検索システム、検索語辞書生成装置、プログラム、記憶媒体及び検索語辞書生成方法

Also Published As

Publication number Publication date
JP2022074948A (ja) 2022-05-18

Similar Documents

Publication Publication Date Title
US11533356B2 (en) Establishing a trust association
US10911392B1 (en) Coalesced notifications for social groups
US8656266B2 (en) Identifying comments to show in connection with a document
JP6334696B2 (ja) ハッシュタグおよびコンテンツ提示
US8707184B2 (en) Content sharing interface for sharing content in social networks
US8782156B2 (en) Enhanced message display
US20130159848A1 (en) Dynamic Personal Dictionaries for Enhanced Collaboration
KR102008466B1 (ko) 검색 질의들 중 질의 패턴 및 관련된 합계 통계의 식별
US20130304469A1 (en) Information processing method and apparatus, computer program and recording medium
US10528676B2 (en) Community translation of user-generated content
US20170140056A1 (en) System and method for generating influencer scores
US9477704B1 (en) Sentiment expression analysis based on keyword hierarchy
US20130268525A1 (en) Retrieval device, retrieval system, retrieval method, retrieval program, and computer-readable recording medium storing retrieval program
US10628498B2 (en) Interest-based message-aggregation alteration
US9256343B1 (en) Dynamically modifying an electronic article based on commentary
JP6625259B1 (ja) 情報処理装置、情報処理方法及びプログラム
JP6643155B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP7042888B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
KR101638262B1 (ko) 소셜 네트워크 리포트들
WO2013094352A1 (ja) ソーシャル・メデイアにおけるトレンドを検出する方法、コンピュータ・プログラム、コンピュータ。
US20120016890A1 (en) Assigning visual characteristics to records
AU2017232032A1 (en) Real-time method and system for assessing and improving a presence and perception of an entity
JP2011243078A (ja) 記事管理装置
US9430447B1 (en) Presenting media content based on parsed text
JP4809322B2 (ja) バズ情報を検出するサーバ及び広告配信サーバ

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210219

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210219

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210518

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210719

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211220

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20211220

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20211228

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220315

R150 Certificate of patent or registration of utility model

Ref document number: 7042888

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350