JP2022144120A - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
JP2022144120A
JP2022144120A JP2021044993A JP2021044993A JP2022144120A JP 2022144120 A JP2022144120 A JP 2022144120A JP 2021044993 A JP2021044993 A JP 2021044993A JP 2021044993 A JP2021044993 A JP 2021044993A JP 2022144120 A JP2022144120 A JP 2022144120A
Authority
JP
Japan
Prior art keywords
information
personal name
tag
extracting
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021044993A
Other languages
English (en)
Inventor
樹生 豊田
Mikio Toyoda
毅 築地
Takeshi Tsukiji
広弥 小松
Hiroya Komatsu
純 齋藤
Jun Saito
雄作 谷口
Yusaku Taniguchi
賢 熊谷
Masaru Kumagai
晃平 菅原
Kohei Sugawara
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2021044993A priority Critical patent/JP2022144120A/ja
Publication of JP2022144120A publication Critical patent/JP2022144120A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】人物に特有の情報のうち本名以外の情報を取得するに際して、当該情報と人物との結びつきに関する精度を向上することができる情報処理装置、情報処理方法及び情報処理プログラムを提供する。【解決手段】SNS投稿情報D2を取得する第1取得手段(通信部130)と、SNS投稿情報D2から、人名タグ含有投稿Pを抽出する第1抽出手段(制御部110)と、人名タグ含有投稿Pから、人名外タグT2を抽出する第2抽出手段(制御部110)と、記事情報D3を取得する第2取得手段(通信部130)と、記事情報D3から、所定のキーワードを含む文であるキーワード含有文を抽出する第3抽出手段(制御部110)と、第2抽出手段が抽出した人名外タグT2の記載内容が、キーワード含有文に含まれているかを判定する第1判定手段(制御部110)と、を備える。【選択図】図1

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。
検索エンジンにおいては、ユーザがウェブ検索を行うに際して、検索クエリ(検索エンジンを使用した検索の際にユーザが検索エンジンに入力する文字列)を入力した際に、このような検索クエリから、ユーザが検索対象として意図するエンティティ(実在する概念)の名称を解釈し、エンティティリンキング(エンティティ名称を知識ベース上のエントリと結び付けること)を行った上で、当該エンティティに係る構造化された情報を表示することがある。
この点、ユーザが、検索クエリとして、検索対象として意図するエンティティの正式名称を入力した場合には、このようなエンティティリンキングを行うことは比較的容易であるが、ユーザは、検索クエリとして、必ずしも検索対象として意図するエンティティの正式名称を入力するとは限らない。
ユーザが正式名称ではない検索クエリを入力した場合には、ユーザが検索対象として意図するエンティティの正式名称を予測した上で、エンティティリンキングを行うことが必要となるが、このような予測を行うためには、予めユーザが入力する可能性のある正式名称ではない検索クエリのサンプルを取得し、データベースを作成しておくことが好ましい。
そこで、ツイッター(登録商標)等の所定のSNS(Social networking service)から、所定のイベントに関連するキーワードを抽出し、取得するためのシステムが知られている(例えば、特許文献1参照)。
特許第5853653号公報
ユーザが正式名称ではない検索クエリを入力するケースのうち、最も頻繁に見られるものとしては、ユーザが著名な人物について検索する場合に、検索クエリとして、当該人物の正式名称(本名)ではない当該人物に特有の情報を入力するケースが挙げられる。
このような人物に特有の情報の代表的なものが、当該人物に付された愛称である。
そして、このような本名ではない人物に特有の情報については、当該人物が出演するテレビ番組の放送等の何らかのイベントの発生に応じて、突如として大量に検索クエリとして入力される可能性があることから、予めこのような本名ではない人物に特有の情報から、ユーザが検索対象として意図する人物の本名を高精度で予測できるようにしておく必要性が高い。
この点、本名ではない人物に特有の情報から当該人物の本名を予測する際の予測精度を向上するためには、予め、ユーザが検索クエリとして入力する可能性のある本名ではない人物に特有の情報のサンプルを数多く取得しておくことが求められるが、いかなる情報といかなる人物とが結びついているかの判別は容易ではなく、情報と人物との結びつきについて十分な精度でこのような人物に特有の情報を取得することは困難であった。
本発明の課題は、人物に特有の情報のうち本名以外の情報を取得するに際して、当該情報と人物との結びつきに関する精度を向上することができる情報処理装置、情報処理方法及び情報処理プログラムを提供することである。
上記課題を解決するために、請求項1に記載の発明は、情報処理装置において、
インターネット上でなされた投稿に係る情報である投稿情報を取得する第1取得手段と、
前記投稿情報から、所定の人物の人名に係るタグである人名タグを含む投稿である人名タグ含有投稿を抽出する第1抽出手段と、
前記人名タグ含有投稿から、当該投稿に付された前記人名タグ以外のタグである人名外タグを抽出する第2抽出手段と、
所定の半構造化データに含まれる前記所定の人物に係る記事の記載内容に係る情報である記事情報を取得する第2取得手段と、
前記記事情報から、所定のキーワードを含む文であるキーワード含有文を抽出する第3抽出手段と、
前記第2抽出手段が抽出した前記人名外タグの記載内容が、前記キーワード含有文に含まれているかを判定する第1判定手段と、
を備えることを特徴とする。
請求項2に記載の発明は、請求項1に記載の情報処理装置において、
前記第1抽出手段は、前記所定の人物の人名を所定のタグの形式に変換してAho-Corasickに挿入した上で、前記投稿情報に係る各投稿を当該Aho-Corasickで検査することによって、前記人名タグ含有投稿を抽出することを特徴とする。
請求項3に記載の発明は、請求項1又は2に記載の情報処理装置において、
前記記事情報からCite要素を除去する除去手段を備え、
前記第3抽出手段は、前記除去手段がCite要素を除去した前記記事情報から、前記キーワード含有文を抽出することを特徴とする。
請求項4に記載の発明は、請求項1から3のいずれか一項に記載の情報処理装置において、
前記記事情報から、他の記事へのリンクが張られた文字列であるアンカーテキストを抽出する第4抽出手段と、
前記人名外タグが、前記アンカーテキストと一致するかについて判定する第2判定手段と、
を備え、
前記第1判定手段は、前記第2判定手段が前記アンカーテキストと一致しないと判定した前記人名外タグの記載内容が、前記キーワード含有文に含まれているかを判定することを特徴とする。
請求項5に記載の発明は、請求項4に記載の情報処理装置において、
前記第2判定手段は、前記人名外タグの記載内容及び前記アンカーテキストを小文字とした上で、|タグ|-|LCS(タグ,a)|<=0である場合に、前記人名外タグが、前記アンカーテキストと一致すると判定することを特徴とする。
請求項6に記載の発明は、請求項1から5のいずれか一項に記載の情報処理装置において、
前記第1判定手段が前記キーワード含有文に含まれていると判定した前記人名外タグの記載内容を、前記所定の人物の人名と紐づけて記憶手段に記憶させる記憶制御手段を備えることを特徴とする。
請求項7に記載の発明は、請求項1から6のいずれか一項に記載の情報処理装置において、
前記所定のキーワードは、前記所定の人物の愛称を示すキーワードであることを特徴とする。
請求項8に記載の発明は、請求項1から7のいずれか一項に記載の情報処理装置において、
前記第1取得手段は、所定の時間帯になされた投稿に係る情報のみを、前記投稿情報として取得することを特徴とする。
請求項9に記載の発明は、請求項1から7のいずれか一項に記載の情報処理装置において、
前記第1抽出手段は、所定の時間帯になされた投稿のみを、前記人名タグ含有投稿として前記投稿情報から抽出することを特徴とする。
請求項10に記載の発明は、請求項1から9のいずれか一項に記載の情報処理装置において、
前記投稿情報から、所定の人物の画像を含む投稿を抽出する第4抽出手段と、
前記第4抽出手段が抽出した投稿から、当該投稿に付されたタグに係る情報を抽出する第5抽出手段と、
前記第5抽出手段が抽出したタグの記載内容が、前記キーワード含有文に含まれているかを判定する第3判定手段と、
を備えることを特徴とする。
請求項11に記載の発明は、請求項1から10のいずれか一項に記載の情報処理装置において、
前記投稿は、ツイッターでなされた投稿あることを特徴とする。
請求項12に記載の発明は、請求項1から11のいずれか一項に記載の情報処理装置において、
前記半構造化データは、ウィキペディアであることを特徴とする。
請求項13に記載の発明は、請求項1から12のいずれか一項に記載の情報処理装置において、
前記人名タグ及び前記人名外タグは、ハッシュタグであることを特徴とする。
請求項14に記載の発明は、情報処理方法において、
インターネット上でなされた投稿に係る情報である投稿情報を取得する第1取得ステップと、
前記投稿情報から、所定の人物の人名に係るタグである人名タグを含む投稿である人名タグ含有投稿を抽出する第1抽出ステップと、
前記人名タグ含有投稿から、当該投稿に付された前記人名タグ以外のタグである人名外タグを抽出する第2抽出ステップと、
所定の半構造化データに含まれる前記所定の人物に係る記事の記載内容に係る情報である記事情報を取得する第2取得ステップと、
前記記事情報から、所定のキーワードを含む文であるキーワード含有文を抽出する第3抽出ステップと、
前記第2抽出ステップにおいて抽出した前記人名外タグの記載内容が、前記キーワード含有文に含まれているかを判定する判定ステップと、
を含むことを特徴とする。
請求項15に記載の発明は、情報処理プログラムにおいて、
コンピュータを、
インターネット上でなされた投稿に係る情報である投稿情報を取得する第1取得手段、
前記投稿情報から、所定の人物の人名に係るタグである人名タグを含む投稿である人名タグ含有投稿を抽出する第1抽出手段、
前記人名タグ含有投稿から、当該投稿に付された前記人名タグ以外のタグである人名外タグを抽出する第2抽出手段、
所定の半構造化データに含まれる前記所定の人物に係る記事の記載内容に係る情報である記事情報を取得する第2取得手段、
前記記事情報から、所定のキーワードを含む文であるキーワード含有文を抽出する第3抽出手段、
前記第2抽出手段が抽出した前記人名外タグの記載内容が、前記キーワード含有文に含まれているかを判定する判定手段、
として機能させることを特徴とする。
本発明によれば、人物に特有の情報のうち本名以外の情報を取得するに際して、当該情報と人物との結びつきに関する精度を向上することができる情報処理装置、情報処理方法及び情報処理プログラムを提供することができる。
実施形態に係る情報処理装置の構成を示すブロック図である。 実施形態に係る情報処理装置の動作の流れを示すフローチャートである。 人名情報をAho-Corasickに挿入した状態の一例を示す図である。 人名タグ含有投稿の一例を示す図である。
以下、図1から図4に基づいて、本発明の実施形態である情報処理装置100について説明する。ただし、本発明の技術的範囲は、図示例に限定されるものではない。
[第1 構成の説明]
情報処理装置100は、検索エンジンにおいてユーザが検索クエリとして入力する可能性のある本名以外の人物に特有の情報として、人物の愛称を取得し、蓄積するための装置であり、PC(Personal Computer)、WS(Work Station)等の情報機器によって構成されている。
なお、本実施形態において「愛称」とは、特定の人物を指すために用いられる本名以外の文字列を広く含むものであり、例えば、姓又は名に、「君」、「先生」等の敬称が付された文字列が、一体として特定の人物を指すものとして使用される場合には、このような文字列も「愛称」に含まれるものとする。
情報処理装置100は、例えば、図1に示すように、制御部110と、記憶部120と、通信部130と、表示部140と、操作部150と、を備えて構成されている。
なお、情報処理装置100は、必ずしも単一のPC、WS等の情報機器によって実現されることを要せず、複数台のPC、WS等の情報機器がインターネット、電話回線網、携帯電話通信網、無線LAN通信網等の通信ネットワークを介して接続されることで、複数台の情報機器により、情報処理装置100としての機能が実現されていてもよい。この場合、このような複数の情報機器が接続されたものが、本実施形態における情報処理装置に該当することとなる。
[1 制御部]
制御部110は、情報処理装置100の動作を制御する部分であり、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等を備えて構成され、記憶部120に記憶されたプログラムデータ等とCPUとの協働により、情報処理装置100の各部を統括制御する。
[2 記憶部]
記憶部120は、情報処理装置100の運用に必要となる各種情報が記憶される部分であり、例えば、HDD(Hard Disk Drive)、半導体メモリ等により構成され、プログラムデータ等の情報処理装置100の運用に必要となるデータを、制御部110から読み書き可能に記憶する。
記憶部120は、情報処理プログラム121と、人名情報記憶部122と、SNS投稿情報記憶部123と、記事情報記憶部124と、キーワード情報記憶部125と、愛称情報記憶部126と、を備える。
情報処理プログラム121は、情報処理装置100を動作させるための制御部110への各種命令を含むプログラムであり、後述の動作の説明において述べる情報処理装置100の動作は、情報処理プログラム121に従ってなされることとなる。
なお、各記憶部に記憶されるデータの詳細は、後述の動作の説明の中で説明する。
[3 通信部]
通信部130は、情報処理装置100と、外部の所定の装置等との間で通信を行う際に用いられる部分であり、例えば、通信用IC(Integrated Circuit)及び通信コネクタなどを有する通信インターフェイスであり、制御部110の制御の元、所定の通信プロトコルを用いて、インターネット、電話回線網、携帯電話通信網、無線LAN通信網等の通信ネットワークを介したデータ通信を行う。
[4 表示部]
表示部140は、例えば、LCD(Liquid Crystal Display)等の表示画面を備え、制御部110から出力された表示制御信号に基づいた画像を表示画面に表示する。
[5 操作部]
操作部150は、例えば、文字入力キー、数字入力キー、その他各種機能に対応付けられたキーを有するキーボード等を備え、例えば、情報処理装置100の管理者からの操作入力を受け付けて、操作入力に応じた操作信号を制御部110へと出力する。操作部150は、例えば、表示部140と一体的に形成されたタッチパネル等であってもよい。
[第2 動作の説明]
以下、本実施形態に係る情報処理装置100の使用時の動作の流れについて説明する。情報処理装置100の動作は、図2のフローチャートに示すように、ステップS1からステップS10の10個のステップからなる。
[1 ステップS1:人名情報の取得]
情報処理装置100は、まず、愛称に係る情報の取得の対象となる人物の人名、すなわち当該人物の本名に係る情報である人名情報D1を取得し、取得した人名情報D1を、記憶部120の人名情報記憶部122に記憶させる。
人名情報D1の取得方法は特に限定されず、情報処理装置100の外部の所定の装置から送信される情報を、通信ネットワークを介して通信部130によって受信することで取得してもよいし、情報処理装置100の管理者が操作部150を用いて入力することによって取得するようにしてもよい。
[2 ステップS2:Aho-Corasickへの挿入]
人名情報D1を取得すると、制御部110は、取得した人名情報D1に含まれる人名を、それぞれハッシュタグの形式、すなわち、#<人名><スペース>の形式に変換した上で、Aho-Corasickに挿入する。
例えば、鈴木■、佐藤▲という二人の人名が人名情報D1に含まれていたとすると、図3に示すように、それぞれ「#鈴木■ 」、「#佐藤▲ 」という形式(それぞれ、■又は▲の後にはスペースが含まれている。)に変換した上で、Aho-Corasickに挿入することとなる。
[3 ステップS3:SNS投稿情報の取得]
制御部110は、例えば日に一度、週に一度等の所定のタイミングで、当該時点以前の所定の期間になされた所定のSNSへの全ての投稿の内容を含む情報であるSNS投稿情報D2を取得し、取得したSNS投稿情報D2を、記憶部120のSNS投稿情報記憶部123に記憶させる。
例えば、一日に一度、取得時点までの24時間になされた全ての投稿内容を取得するといった形で、SNS投稿情報D2を取得すればよい。
情報を取得するSNSとしては、ハッシュタグ等の投稿を分類するためのタグが含まれるものであればよく、例えば、ツイッターが挙げられる。この場合、所定の期間になされた全てのツイートの内容に係る情報を取得することとなる。
なお、本実施形態においてSNSとは、ウェブ上にメッセージを投稿することで、他社とコミュニケーションをとることができるサービスであればよく、ツイッター、電子掲示板等のサービスを広く含むものである。
SNS投稿情報D2の取得方法は特に限定されず、例えば、情報処理装置100の管理者が、所定のSNSの運営会社から、所定の期間における投稿内容に係るデータの提供を受けた上で、操作部150を用いて情報処理装置100に入力するようにしてもよいし、外部の所定のシステムを利用して、所定のSNSにおける投稿内容に係るデータを通信部130によって自動的に取得するようにしてもよい。
[4 ステップS4:人名タグ含有投稿の抽出]
SNS投稿情報D2を取得すると、制御部110は、人名情報D1に含まれる人名に係るハッシュタグ(人名タグT1)が含まれる投稿である人名タグ含有投稿Pを抽出する。
具体的には、制御部110は、ステップS3で取得したSNS投稿情報D2を、ステップS2で人名情報D1に含まれる人名をハッシュタグの形式に変換した上で挿入したAho-Corasickで検査することによって、人名タグ含有投稿Pを抽出すればよい。
人名タグ含有投稿Pは、例えば図4に示すように、投稿中に、人名タグT1が含まれる投稿である。
例えば、SNS投稿情報D2を取得したSNSがツイッターであれば、人名情報D1に含まれる人名のハッシュタグを含むツイート(ツイッターの場合、リツイートを除くことが好ましい。)に係る情報を抽出すればよい。
[5 ステップS5:人名外タグの抽出]
人名タグ含有投稿Pを抽出すると、制御部110は、ステップS4で抽出した人名タグ含有投稿Pから、人名タグT1以外のハッシュタグである人名外タグT2を正規表現で抽出する。図4に示す例であれば、人名タグである「#鈴木■」以外のハッシュタグである「#○○〇」及び「#●●●」を、人名外タグT2として抽出することとなる。
[6 ステップS6:記事情報の取得]
続いて、制御部110は、例えば、ウィキペディア等の所定の半構造化データから、人名情報D1に係る人物の記事の内容(当該人物を紹介する記事の全文)に係る情報である記事情報D3を取得し、取得した記事情報D3を、記憶部120の記事情報記憶部124に記憶させる。
する。
記事情報D3の取得方法は特に限定されず、例えば、制御部110は、通信部130から通信ネットワークを介して、ウィキペディア等の所定ウェブサイトにアクセスの上、当該ウェブサイトにおいて人名情報D1に係る人物の人名について検索することで、通信ネットワークを介して通信部130により、記事情報D3を取得すればよい。
[7 ステップS7:アンカーテキストの取得及びCite要素の削除]
記事情報D3を取得すると、制御部110は、記事情報D3に係る全テキスト(文字列)から、アンカーテキスト(他の記事へのリンクが張られたテキスト)を抽出する。また制御部110は、記事情報D3に係る全テキストから、Cite要素(Citeタグ)を削除する。Cite要素を削除しておくことで、ステップS8における所定のキーワードを含む文の抽出等の工程を行い易くなる。
[8 ステップS8:所定のキーワードを含む文の抽出]
続いて、制御部110は、記事情報D3から、所定のキーワードを含む文を抽出する。この際には、「。」の区切りで一文とみなし、また、「。」の含まれない行がある場合には、行全体を一文とみなせばよい。
所定のキーワードとしては、一般に人物の愛称を示すことが多いキーワードを適宜設定の上、キーワード情報D4として記憶部120のキーワード情報記憶部125に記憶させておけばよく、制御部110は、記事情報D3に含まれる各文と、キーワード情報D4に含まれる各キーワードとを対照の上、キーワード情報D4に係るキーワードを含む文を抽出すればよい。
所定のキーワードとしては、例えば、「愛称」の他に、「別称」、「略称」、「表記」、「別名」、「名義」、「呼ぶ」、「呼ばれ」、「用いられ」等が挙げられる。
[9 ステップS9:アンカーテキストと一致するタグの除外]
続いて、制御部110は、ステップS5で人名タグ含有投稿Pから抽出した人名外タグT2について、タグの記載内容がステップS7で記事情報D3から抽出したアンカーテキストと一致するか否かについて判定の上、一致するものを除外する。
具体的には、タグの記載内容及びアンカーテキストの両者を小文字化した上で、
|タグ|-|LCS(タグ,a)|<=0である場合に、タグとアンカーテキストとが一致したものと判定し、当該人名外タグT2を除外する。このような判定方法を用いることによって、人名外タグT2とアンカーテキストとの一致について容易に判定することができる。
例えば、ステップS8においてアンカーテキストとして「●●●」が抽出されていたとすると、図4に示す人名タグ含有投稿Pにおける2つの人名外タグT2のうち、「#●●●」は除外され、「#○○〇」のみが残ることとなる。
[10 ステップS10:人名外タグと記事情報との照合]
続いて、制御部110は、ステップS9でアンカーテキストと一致しないものと判定した人名外タグT2(ステップS9で除外されずに残った人名外タグT2)の記載内容を、ステップS8で抽出した所定のキーワードを含む文に対して照合する。すなわち、人名外タグT2の記載内容が、ステップS8で抽出した所定のキーワードを含む文に含まれているかを判定し、含まれていた場合、当該人名外タグT2の記載内容を、愛称情報D5として、人名情報D1に係る対応する人名(ステップS4で人名タグ含有投稿Pの抽出に用いた人名)と紐づけて、記憶部120の愛称情報記憶部126に記憶させる。
[第3 効果の説明]
次に、本実施形態に係る情報処理装置100の効果について説明する。
まず、本実施形態に係る情報処理装置100によれば、ツイッター等のSNSにおける投稿に係る情報であるSNS投稿情報D2に含まれる人名外タグT2と、ウィキペディア等の半構造化データの記事である記事情報D3から抽出した所定のキーワードを含む文と、の両者を照合して、人物の愛称に係る情報を取得する。
これによって、両者に含まれる情報を照合できた場合、すなわち、人名外タグT2の記載内容が、記事情報D3から抽出した所定のキーワードを含む文に含まれていた場合にのみ愛称に係る情報が正しいものと判定して、愛称情報D5として取得することとなるから、人名情報D1に係る人物の愛称ではない文字列を誤って愛称として取得してしまうおそれを低減することができ、愛称と人物との結びつき関する精度を向上することができる。
すなわち、ツイッター等のSNSにおける投稿に付されたタグには、愛称以外のタグも多く含まれることから、SNS投稿情報D2のみに基づくのでは、愛称でないものも抽出してしまう可能性が高く、愛称に係る情報のみを十分な精度で取得することは困難である。
また、ウィキペディア等の半構造化データの記事についても、愛称については、必ずしも独立の項目が設けられているわけではなく、種々の表現で愛称に該当する説明がなされていることから、ウィキペディア等の半構造化データに含まれる人物について紹介する記事のみに基づく場合にも、十分な精度で愛称に係る情報を取得することは困難である。
この点、本実施形態によれば、ツイッター等のSNSにおける投稿に係る情報であるSNS投稿情報D2に含まれる人名外タグT2と、ウィキペディア等の半構造化データの記事である記事情報D3から抽出した所定のキーワードを含む文と、の両者を照合できた場合にのみ愛称情報D5として取得することから、いずれかにおいて愛称ではないものが抽出されたとしても、他方に含まれていない限り愛称情報D5として取得されることはないことから、人名情報D1に係る人物の愛称として、愛称ではない情報が取得されてしまうおそれを低減することができる。
また、記事情報D3に係るテキストからアンカーテキストを抽出した上で、人名外タグT2から、当該アンカーテキストと一致するものを除外し、除外されずに残った人名外タグT2のみを、記事情報D3から抽出した所定のキーワードを含む文と照合することで、さらに愛称と人物との結びつきに関する精度を向上することができる。
すなわち、愛称は、当該愛称がつけられた人物自身を指していることから、ウィキペディア等の半構造化データにおける当該人物に係る記事において、愛称についての記載に、他の記事に係るウェブページへのリンクが張られることは考え難い。
したがって、他の記事へのリンクが張られたテキストであるアンカーテキストと記載内容が一致する人名外タグT2を除外することで、明らかに愛称に係るものではないタグを一律に除外することができ、人名情報D1に係る人物の愛称として、愛称ではない情報が取得されてしまうおそれをさらに低減することができる。
また、人名情報D1に係る人名をハッシュタグの形式に変換した上で、Aho-Corasickに挿入しておき、これを用いてSNS投稿情報D2を検査して人名タグ含有投稿Pを抽出することで、人名情報D1に多数の人物が含まれ、かつ膨大な量の投稿がSNS投稿情報D2に含まれていても、容易に人名タグ含有投稿Pを抽出することができる。
[第4 変形例]
次に、本実施形態に係る情報処理装置100の変形例について説明する。
[1 SNSへの投稿時間の活用]
上記においては、ステップS3で、SNS投稿情報D2として、所定の期間における所定のSNSへの投稿の全てを取得する場合について説明したが、SNS投稿情報D2として取得する投稿がなされた時間帯を限定してもよい。
例えば、特定の人物が出演中のテレビ番組の放送中には、当該人物に関係する投稿が増加することが想定されることから、あらかじめ特定のテレビ番組の放送時間を指定の上、情報処理装置100が、SNS投稿情報D2として、当該時間帯における投稿に係る情報のみを取得するようにすることで、SNS投稿情報D2中に、当該人物の愛称に係るハッシュタグが含まれている可能性が高まり、愛称に係る情報の取得精度をさらに向上することができる。
なお、SNS投稿情報D2として取得する投稿がなされた時間帯を限定する要素としては、特定の人物に関する投稿が増加することが想定されるものであればよく、テレビ番組の放送には限られない。
例えば、スポーツや音楽関係のイベント等、何らかのイベントが開催中の時間帯における投稿に係る情報のみを取得することで、当該イベントの出演者の愛称に係る情報の取得精度の向上を図ることが可能となる。
また、SNS投稿情報D2としては、時間帯を指定することなく所定の期間における所定のSNSへの投稿の全てを取得した上で、ステップS4で、特定の時間帯になされた投稿のみを、人名タグ含有投稿Pとして抽出するようにしてもよい。
[2 画像の活用]
SNS投稿情報D2に、テキストのみでなく、画像も含まれている場合、当該画像も愛称に係る情報の取得に使用してもよい。
具体的には、SNS投稿情報D2として、投稿中に含まれる画像に係る情報も取得した上で、制御部110は、所定の顔認識に係るソフトウェアを使用して、当該画像中に、人名情報D1に係る人物の顔が含まれているかを判別し、含まれていた場合に、ステップS4における人名タグT1を含む投稿である人名タグ含有投稿Pの抽出に加えて、このような人名情報D1に含まれる人物の顔に係る画像を含む投稿を抽出するようにする。
さらに、この場合、制御部110は、ステップS5においては、このような人名情報D1に係る人物の顔の画像を含む投稿中に含まれているハッシュタグの記載内容に係る情報を取得し、ステップS10においては、このようなハッシュタグの記載内容が、ステップS8で抽出した所定のキーワードを含む文に含まれているかについて判定することとなる。
この点、人名情報D1に係る人名のハッシュタグである人名タグT1が含まれていない投稿であっても、人名情報D1に係る人物の顔に係る画像が含まれていれば、当該投稿中には、当該人物の愛称が含まれている蓋然性が存在するところ、上記のようにして画像に基づく投稿の抽出も行うことで、このような人名情報D1に係る人物の顔の画像が含まれている投稿からも、愛称に係る情報を取得することが可能となる。
[3 愛称以外の情報の取得]
上記においては、愛称に係る情報を取得する場合について説明したが、取得する情報は、本名以外の人名情報D1に含まれる人物に特有の情報であればよく、愛称には限られない。
愛称以外の人名情報D1に含まれる人物に特有の情報を取得する場合、ステップS8において文を抽出する際に使用するキーワード情報D4を、取得する情報に応じたものとすることで、当該情報が含まれている蓋然性が高い文を記事情報D3から抽出し、これと人名外タグT2の記載内容を照合するようにすればよい。
[4 SNS以外における投稿の活用]
上記においては、ステップS3でSNS投稿情報D2を取得し、これを愛称に係る情報の取得に活用する場合について説明したが、ステップS3で取得する情報は、ハッシュタグ等の投稿を分類するためのタグを含んでインターネット上でなされた投稿に係る情報であればよく、必ずしもSNSの定義に当てはまるサービスにおいてなされた投稿に限られない。
100 情報処理装置
110 制御部(第1抽出手段、第2抽出手段、第3抽出手段、第1判定手段、除去手段、第4抽出手段、第2判定手段、記憶制御手段、第4抽出手段、第5抽出手段、第3判定手段、判定手段)
120 記憶部(記憶手段)
121 情報処理プログラム
130 通信部(第1取得手段、第2取得手段)
140 表示部
150 操作部(第1取得手段)
D1 人名情報
D2 SNS投稿情報(投稿情報)
D3 記事情報
D4 キーワード情報
D5 愛称情報
T1 人名タグ
T2 人名外タグ
P 人名タグ含有投稿

Claims (15)

  1. インターネット上でなされた投稿に係る情報である投稿情報を取得する第1取得手段と、
    前記投稿情報から、所定の人物の人名に係るタグである人名タグを含む投稿である人名タグ含有投稿を抽出する第1抽出手段と、
    前記人名タグ含有投稿から、当該投稿に付された前記人名タグ以外のタグである人名外タグを抽出する第2抽出手段と、
    所定の半構造化データに含まれる前記所定の人物に係る記事の記載内容に係る情報である記事情報を取得する第2取得手段と、
    前記記事情報から、所定のキーワードを含む文であるキーワード含有文を抽出する第3抽出手段と、
    前記第2抽出手段が抽出した前記人名外タグの記載内容が、前記キーワード含有文に含まれているかを判定する第1判定手段と、
    を備えることを特徴とする情報処理装置。
  2. 前記第1抽出手段は、前記所定の人物の人名を所定のタグの形式に変換してAho-Corasickに挿入した上で、前記投稿情報に係る各投稿を当該Aho-Corasickで検査することによって、前記人名タグ含有投稿を抽出することを特徴とする請求項1に記載の情報処理装置。
  3. 前記記事情報からCite要素を除去する除去手段を備え、
    前記第3抽出手段は、前記除去手段がCite要素を除去した前記記事情報から、前記キーワード含有文を抽出することを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記記事情報から、他の記事へのリンクが張られた文字列であるアンカーテキストを抽出する第4抽出手段と、
    前記人名外タグが、前記アンカーテキストと一致するかについて判定する第2判定手段と、
    を備え、
    前記第1判定手段は、前記第2判定手段が前記アンカーテキストと一致しないと判定した前記人名外タグの記載内容が、前記キーワード含有文に含まれているかを判定することを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。
  5. 前記第2判定手段は、前記人名外タグの記載内容及び前記アンカーテキストを小文字とした上で、|タグ|-|LCS(タグ,a)|<=0である場合に、前記人名外タグが、前記アンカーテキストと一致すると判定することを特徴とする請求項4に記載の情報処理装置。
  6. 前記第1判定手段が前記キーワード含有文に含まれていると判定した前記人名外タグの記載内容を、前記所定の人物の人名と紐づけて記憶手段に記憶させる記憶制御手段を備えることを特徴とする請求項1から5のいずれか一項に記載の情報処理装置。
  7. 前記所定のキーワードは、前記所定の人物の愛称を示すキーワードであることを特徴とする請求項1から6のいずれか一項に記載の情報処理装置。
  8. 前記第1取得手段は、所定の時間帯になされた投稿に係る情報のみを、前記投稿情報として取得することを特徴とする請求項1から7のいずれか一項に記載の情報処理装置。
  9. 前記第1抽出手段は、所定の時間帯になされた投稿のみを、前記人名タグ含有投稿として前記投稿情報から抽出することを特徴とする請求項1から7のいずれか一項に記載の情報処理装置。
  10. 前記投稿情報から、所定の人物の画像を含む投稿を抽出する第4抽出手段と、
    前記第4抽出手段が抽出した投稿から、当該投稿に付されたタグに係る情報を抽出する第5抽出手段と、
    前記第5抽出手段が抽出したタグの記載内容が、前記キーワード含有文に含まれているかを判定する第3判定手段と、
    を備えることを特徴とする請求項1から9のいずれか一項に記載の情報処理装置。
  11. 前記投稿は、ツイッターでなされた投稿であることを特徴とする請求項1から10のいずれか一項に記載の情報処理装置。
  12. 前記半構造化データは、ウィキペディアであることを特徴とする請求項1から11のいずれか一項に記載の情報処理装置。
  13. 前記人名タグ及び前記人名外タグは、ハッシュタグであることを特徴とする請求項1から12のいずれか一項に記載の情報処理装置。
  14. インターネット上でなされた投稿に係る情報である投稿情報を取得する第1取得ステップと、
    前記投稿情報から、所定の人物の人名に係るタグである人名タグを含む投稿である人名タグ含有投稿を抽出する第1抽出ステップと、
    前記人名タグ含有投稿から、当該投稿に付された前記人名タグ以外のタグである人名外タグを抽出する第2抽出ステップと、
    所定の半構造化データに含まれる前記所定の人物に係る記事の記載内容に係る情報である記事情報を取得する第2取得ステップと、
    前記記事情報から、所定のキーワードを含む文であるキーワード含有文を抽出する第3抽出ステップと、
    前記第2抽出ステップにおいて抽出した前記人名外タグの記載内容が、前記キーワード含有文に含まれているかを判定する判定ステップと、
    を含むことを特徴とする情報処理方法。
  15. コンピュータを、
    インターネット上でなされた投稿に係る情報である投稿情報を取得する第1取得手段、
    前記投稿情報から、所定の人物の人名に係るタグである人名タグを含む投稿である人名タグ含有投稿を抽出する第1抽出手段、
    前記人名タグ含有投稿から、当該投稿に付された前記人名タグ以外のタグである人名外タグを抽出する第2抽出手段、
    所定の半構造化データに含まれる前記所定の人物に係る記事の記載内容に係る情報である記事情報を取得する第2取得手段、
    前記記事情報から、所定のキーワードを含む文であるキーワード含有文を抽出する第3抽出手段、
    前記第2抽出手段が抽出した前記人名外タグの記載内容が、前記キーワード含有文に含まれているかを判定する判定手段、
    として機能させることを特徴とする情報処理プログラム。
JP2021044993A 2021-03-18 2021-03-18 情報処理装置、情報処理方法及び情報処理プログラム Pending JP2022144120A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021044993A JP2022144120A (ja) 2021-03-18 2021-03-18 情報処理装置、情報処理方法及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021044993A JP2022144120A (ja) 2021-03-18 2021-03-18 情報処理装置、情報処理方法及び情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2022144120A true JP2022144120A (ja) 2022-10-03

Family

ID=83454792

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021044993A Pending JP2022144120A (ja) 2021-03-18 2021-03-18 情報処理装置、情報処理方法及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP2022144120A (ja)

Similar Documents

Publication Publication Date Title
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
US9690816B2 (en) Systems, methods and software for entity relationship resolution
US10630798B2 (en) Artificial intelligence based method and apparatus for pushing news
WO2016206210A1 (zh) 信息推送方法和装置
KR100996311B1 (ko) 스팸 ucc를 감지하기 위한 방법 및 시스템
US10878044B2 (en) System and method for providing content recommendation service
WO2019153685A1 (zh) 文本处理方法、装置、计算机设备和存储介质
JP2011134334A (ja) ショートテキスト通信のトピックを識別するためのシステムおよび方法
CN103177075A (zh) 基于知识的实体检测和消歧
WO2007143914A1 (fr) Procédé, dispositif et système de saisie pour la création d'une base de données de fréquence de mots basée sur des informations issues du web
WO2017121076A1 (zh) 信息推送方法和装置
WO2014040521A1 (zh) 搜索方法、系统及存储介质
JP2009116469A (ja) 情報抽出プログラムおよび情報抽出装置
CN108701291B (zh) 在社交网络中利用用户信息的数字图像
Schmidt et al. Extraction of address data from unstructured text using free knowledge resources
KR20160002199A (ko) 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템
RU2595531C2 (ru) Способ и система генерирования определения слова на основе множественных источников
AU2018273369A1 (en) Automated classification of network-accessible content
US20230112385A1 (en) Method of obtaining event information, electronic device, and storage medium
JP2017215803A (ja) 特徴語抽出装置
US20130230248A1 (en) Ensuring validity of the bookmark reference in a collaborative bookmarking system
JP2020129239A (ja) 投稿分析システム、投稿分析装置および投稿分析方法
JP2017091436A (ja) 特徴語選択装置
JP2022144120A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
TW201629801A (zh) 資訊取得系統與方法、以及儲存裝置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231024

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20231026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231218

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240206