JP2015072614A - 特定のテーマに依存して危険表現となりうる表現を検出する方法、並びに、当該表現を検出するための電子装置及びその電子装置用プログラム - Google Patents

特定のテーマに依存して危険表現となりうる表現を検出する方法、並びに、当該表現を検出するための電子装置及びその電子装置用プログラム Download PDF

Info

Publication number
JP2015072614A
JP2015072614A JP2013208264A JP2013208264A JP2015072614A JP 2015072614 A JP2015072614 A JP 2015072614A JP 2013208264 A JP2013208264 A JP 2013208264A JP 2013208264 A JP2013208264 A JP 2013208264A JP 2015072614 A JP2015072614 A JP 2015072614A
Authority
JP
Japan
Prior art keywords
text data
expression
electronic device
subset
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013208264A
Other languages
English (en)
Other versions
JP5930217B2 (ja
Inventor
豊島 浩文
Hirofumi Toyoshima
浩文 豊島
笑子 竹内
Emiko Takeuchi
笑子 竹内
大介 宅間
Daisuke Takuma
大介 宅間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2013208264A priority Critical patent/JP5930217B2/ja
Priority to US14/460,443 priority patent/US9575959B2/en
Publication of JP2015072614A publication Critical patent/JP2015072614A/ja
Application granted granted Critical
Publication of JP5930217B2 publication Critical patent/JP5930217B2/ja
Priority to US15/375,563 priority patent/US10275447B2/en
Priority to US16/248,995 priority patent/US11010552B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】本発明は、特定のテーマに依存して又は特定のテーマ及び特定の期間に依存して危険表現となりうる単語やフレーズを検出することを目的とする。【解決手段】本発明は、特定のテーマに依存して危険表現となりうる表現を検出する技法を提供し、当該技法は、学習用のテキスト・データから、上記特定のテーマ及び任意的に特定の期間情報に関連付けられたテキスト・データの部分集合を取得すること;上記取得した部分集合から、ネガティブ情報を有するテキスト・データを抽出すること;及び、上記抽出されたテキスト・データから、(1)当該抽出されたテキスト・データに相関が高い単語若しくはフレーズを、又は、(2)当該抽出されたテキスト・データ中の出現頻度の高い単語若しくはフレーズを、上記特定のテーマに依存して危険表現となりうる表現として抽出することを含む。【選択図】図2A

Description

本発明は、特定のテーマに依存して危険表現となりうる表現を検出する技法に関する。また、本発明は、特定のテーマ及び特定の期間に依存して危険表現となりうる表現を検出する技法に関する。
スマートフォンやタブレットの普及によって、例えばソーシャル・ネットワーキング・サービス(SNS)(例えば、Facebook(登録商標))、Twitter(登録商標))を通じて個人が容易に情報発信をすることができるようになってきている。これら情報の中には、日常的な会話レベルの情報から、インターネット上に一旦拡散すれば、その影響が深刻である情報まで種々多様である。影響が深刻である情報は例えば、不確実な情報、事実に反する情報、秘密情報、他人、企業若しくは国家を誹謗中傷するような情報、企業活動若しくは選挙活動を妨害するような情報、又は事件性を予想させるような情報である。
インターネット上に一旦拡散された情報は削除することがほぼ不可能に近い。従って、影響が深刻である情報がインターネット上に公開されることを如何にして管理するかが問題となっている。
日本においても、インターネット等の普及に鑑み、選挙運動期間における候補者に関する情報の充実、有権者の政治参加の促進等を図るために、2013年4月19日からインターネット等を利用する方法による選挙運動(以下、インターネット選挙運動という)が解禁された。インターネット選挙運動が解禁されたことで、インターネット上での書き込みによって選挙に与えられる影響がより一層深刻になると考えられている。
下記特許文献1は、単数又は複数の素性を入力すると、学習結果記憶手段に格納された機械学習結果データを参照して、所定の対象に対する風評情報か否かを判定する所定の機械学習モジュールを備えた機械学習判定手段を備えている風評情報抽出装置を記載し、当該風評情報抽出装置は、該素性抽出手段が抽出した素性を該機械学習判定手段に入力し、その収集データに対する風評情報か否かの判定結果を得ると共に、風評情報と判定された収集データの少なくとも一部、又はそれが公開されているサーバ装置の名称若しくはネットワークアドレス、又はその収集データのファイル情報、の少なくともいずれかを出力する風評情報出力手段を備えていることを記載する(請求項1)。
下記特許文献2は、特定の評価対象についての評価が記述されたテキストから、前記特定の評価対象に対する評価者の嗜好を示す嗜好表現を検出する表現検出システムを記載し、当該表現検出システムが、各々の前記テキストから、前記特定の評価対象の評価を示す評価表現を抽出する表現抽出部と、前記表現抽出部が抽出した評価表現が、前記特定の評価対象に対する肯定的な評価を示す正極性か、又は、前記特定の評価対象に対する否定的な評価を示す負極性かを判断する極性判断部と、前記嗜好表現を検出する対象として指定されるテキストの属性を入力する属性入力部と、前記表現抽出部が抽出した評価表現のうち、前記属性入力部により入力された属性を有するテキストから検出された評価表現を前記嗜好表現として検出し、当該属性を有するテキストにおいて当該嗜好表現が正極性又は負極性と判断された頻度に対応付けて出力する嗜好表現検出部とを備えていることを記載する(請求項1)。
下記特許文献3は、風説情報を監視する風説監視システムを記載し、当該風説監視システムは、風説情報に対して、風説情報の利用者にとっての新規性を示す新規性スコア、風説情報の信憑性を示す信憑性スコア、風説情報の公衆への影響度を示す影響度スコア、及び風説情報の利用者への危険度を示す危険度スコアのいずれかひとつ以上のスコアを計算し、前記スコアに基づいて、風説情報の風説価値を計算する風説情報価値判定手段を有することを記載する(請求項1)。
下記特許文献4及び5は、通信ネットワークを介して電子掲示板に投稿される投稿記事のデータを受信し、その投稿記事の内容を監視する電子掲示板監視システムを記載する(いずれも請求項1)。特許文献4に記載の電子掲示板監視システムは、監視対象となる要監視ワードに対して監視の注意喚起レベルに応じた重み付けが設定された採点用辞書フィルタデータを記憶する採点用辞書フィルタデータ記憶部、およびその採点用辞書フィルタデータに基づいて採点された後の投稿記事を公開するか否かを判断するために一時的に記憶する公開判断待ち記憶部を備えた監視用データベースを有することを記載する(請求項1)。特許文献5に記載の電子掲示板監視システムは、監視対象となる要監視ワードに対して監視の注意喚起レベルに応じた重み付けが設定された採点用辞書フィルタデータを記憶する採点用辞書フィルタデータ記憶部、その採点用辞書フィルタデータに基づいて採点された後の投稿記事を公開するか否かを判断するために一時的に記憶する公開判断待ち記憶部、および投稿者の識別データに対応付けて、当該投稿者の投稿記事が公開拒否された回数を示す非公開回数と、公開許可された回数を示す公開回数と、投稿者の注意喚起レベルを示すステータスフラグとを記憶する要注意投稿者データ記憶部を備えた監視用データベースを有することを記載する(請求項1)。
下記特許文献6は、インターネット上のウェブ文書等から最新の評判情報を抽出して通知することを記載する(段落0001)。
下記特許文献7は、大量の情報の中から特定の情報を自動的に抽出する技術を記載する(段落0001)。
下記特許文献8は、インターネット上の掲示板の記述内容に基づいて掲示板を分析する技術を記載する(段落0001)。
特開2008−165599号公報 特開2006−146567号公報 特開2008−165284号公報 特開2008−158735号公報 特開2009−15866号公報 特開2008−234090号公報 国際公開第03/046764号 特開2010−231471号公報
ある単語又はフレーズがその文字の表層からはネガティブな情報(例えば、文字の表層から誹謗中傷であると判定できる語又はフレーズ)でない場合であっても、当該ある単語又はフレーズが、特定のテーマに関連する文脈において又は特定のテーマに関連する文脈及び特定の期間において使用されることによって危険表現となりうる場合がある。
例えば、震災後の復興支援の重要性を主張しているある評論家がいたとする。あるユーザが、「当該評論家がコンビニで電池のまとめ買いをしていた」との書き込みを電子掲示板に書き込んだとする。しかしながら、当該書き込みの内容が虚偽であったり、又は人違いによるものであったりしたとする。このような状況下において、結果的には、上記あるユーザの書き込み内容が真偽であるかどうかに関わらず、当該書き込みは当該評論家の評判を落としたり、名誉毀損に該当したりする場合がある。
また、例えば、ある企業のある製品についての書き込み、又は、ある企業、ある公的機関若しくはある飲食店のサポート若しくはサービスについての書き込みにおいても、その内容や書き込みが行われた期間によっては、上記と同様に、当該企業、公的機関又は飲食店の評判を落としたりする場合がある。
また、例えば、国家、コミュニティ、又は特定の人(例えば、選挙立候補者、同僚、若しくは友達)についての書き込みにおいても、その内容や書き込みが行われた期間によっては、上記と同様に、当該国家、コミュニティ、又は特定の人の評判を落としたり、トラブルの元になったり、法律上問題となったりする場合がある。
従って、文字の表層から誹謗中傷であると判定できる語又はフレーズだけでなく、特定のテーマに依存して又は特定のテーマ及び特定の期間に依存して危険表現となりうる単語やフレーズを検出し、当該検出した危険表現の投稿を管理可能にすることが、例えばSNSを管理する側及びSNSを利用する側にとっても重要である。
そこで、本発明は、特定のテーマに依存して危険表現となりうる単語やフレーズを検出することを目的とする。さらには、本発明は、特定のテーマ及び特定の期間に依存して危険表現となりうる単語やフレーズを検出することを目的とする。
本発明は、特定のテーマに依存して危険表現となりうる表現を検出するための技法を提供する。当該技法は、上記特定のテーマに依存して危険表現となりうる表現を検出する方法、特定のテーマに依存して危険表現となりうる表現を検出するための電子装置及び電子装置システム、並びに、その電子装置用プログラム及び電子装置用プログラム製品を包含しうる。
本発明の実施態様は、下記に示す(1)危険表現学習フェーズ、及び(2)危険表現検出フェーズを含む。
(1)危険表現学習フェーズでは、電子装置は、学習用のテキスト・データを用いて、特定のテーマに依存して危険表現となりうる表現を抽出し、危険表現リストを作成する。
(2)危険表現検出フェーズでは、電子装置は、危険表現学習フェーズで作成された危険表現リストを用いて、分析対象のテキスト・データ中に特定のテーマに依存して危険表現となりうる表現が存在するかどうかを検出する。
本発明の実施態様において、上記危険表現学習フェーズが第1の電子装置上で実施され、且つ上記危険表現検出フェーズが当該第1の電子装置と異なる第2の電子装置上で実施されてもよく、又は、上記危険表現学習フェーズと上記危険表現検出フェーズとが同じ電子装置(例えば、上記第1の電子装置)上で実施されてもよい。
(第1の電子装置が危険表現学習フェーズを実施する場合)
本発明に従う第1の実施態様(危険表現学習フェーズ)において、特定のテーマに依存して危険表現となりうる表現を検出する方法は、第1の電子装置が、
学習用のテキスト・データから、上記特定のテーマ及び任意的に特定の期間情報に関連付けられたテキスト・データの部分集合を取得するステップと、
上記取得した部分集合から、ネガティブ情報を有するテキスト・データを抽出するステップと、
上記抽出されたテキスト・データから、(1)当該抽出されたテキスト・データに相関が高い単語若しくはフレーズを、又は、(2)当該抽出されたテキスト・データ中の出現頻度の高い単語若しくはフレーズを、上記特定のテーマに依存して危険表現となりうる表現として抽出するステップ
を実行することを含む。
(第1の電子装置が危険表現検出フェーズを実施する場合)
本発明に従う第2の実施態様(危険表現検出フェーズ)において、特定のテーマに依存して危険表現となりうる表現を検出する方法は、上記第1の電子装置が、
分析対象のテキスト・データから、上記特定のテーマに関連付けられたテキスト・データの部分集合を取得するステップと、
上記分析対象のテキスト・データから取得した上記部分集合において、上記危険表現となりうる表現が存在することを検出するステップと
を実行することを含む。
本発明に従う上記第2の実施態様(危険表現検出フェーズ)において、特定のテーマに依存して危険表現となりうる表現を検出する方法は、上記第1の電子装置が、
上記分析対象のテキスト・データから取得した上記部分集合から、ネガティブ情報を有するテキスト・データを抽出するステップ
をさらに実行することを含み、
上記分析対象のテキスト・データから取得した上記部分集合において、上記危険表現となりうる表現が存在することを検出するステップが、
上記分析対象のテキスト・データからの上記抽出したテキスト・データにおいて、上記危険表現となりうる表現が存在することを検出するステップ
を含みうる。
(第2の電子装置が危険表現検出フェーズを実施する場合)
本発明に従う第3の実施態様(危険表現検出フェーズ)において、特定のテーマに依存して危険表現となりうる表現を検出する方法は、上記第2の電子装置が、
分析対象のテキスト・データから、上記特定のテーマに関連付けられたテキスト・データの部分集合を取得するステップと、
上記分析対象のテキスト・データから取得した上記部分集合において、上記危険表現となりうる表現が存在することを検出するステップと
を実行することを含む。
本発明に従う上記第3の実施態様(危険表現検出フェーズ)において、特定のテーマに依存して危険表現となりうる表現を検出する方法は、上記第2の電子装置が、
上記分析対象のテキスト・データから取得した上記部分集合から、ネガティブ情報を有するテキスト・データを抽出するステップ
をさらに実行することを含み、
上記分析対象のテキスト・データから取得した上記部分集合において、上記危険表現となりうる表現が存在することを検出するステップが、
上記分析対象のテキスト・データからの上記抽出したテキスト・データにおいて、上記危険表現となりうる表現が存在することを検出するステップ
を含みうる。
(第1の電子装置が危険表現学習フェーズを実施する場合)
本発明に従う第4の実施態様(危険表現学習フェーズ)において、特定のテーマに依存して危険表現となりうる表現を検出するための第1の電子装置は、
学習用のテキスト・データから、上記特定のテーマ及び任意的に特定の期間情報に関連付けられたテキスト・データの部分集合を取得する第1の部分集合取得手段と、
上記第1の部分集合取得手段が取得した部分集合から、ネガティブ情報を有するテキスト・データを抽出する第1のテキスト・データ抽出手段と、
上記テキスト・データ抽出手段が抽出したテキスト・データから、(1)当該抽出したテキスト・データに相関が高い単語若しくはフレーズを、又は、(2)当該抽出したテキスト・データ中の出現頻度の高い単語若しくはフレーズを、上記特定のテーマに依存して危険表現となりうる表現として抽出する第1の危険表現抽出手段と
を備えている。
本発明に従う上記第4の実施態様(危険表現学習フェーズ)において、上記第1の電子装置では、
上記第1の部分集合取得手段が、特定のテーマの為に用いられる単語若しくはフレーズを含むテーマ特定辞書を用いて、上記特定のテーマに関連付けられたテキスト・データを特定しうる。
本発明に従う上記第4の実施態様(危険表現学習フェーズ)において、上記第1の電子装置では、
上記第1の部分集合取得手段が、上記学習用のテキスト・データ中に存在し且つ上記テーマ特定辞書に含まれる単語若しくはフレーズの前後の所定の文字数若しくは所定の単語数にある範囲を、又は、
上記テーマ特定辞書に含まれる単語若しくはフレーズを含むテキスト・データを有する同一の文、同一の段落、同一の項目若しくは同一の文書を
上記特定のテーマに関連付けられたテキスト・データ(テキスト・データ1という)として特定しうる。
本発明に従う上記第4の実施態様(危険表現学習フェーズ)において、上記第1の電子装置では、
上記第1の部分集合取得手段が、上記学習用のテキスト・データから、学習済みの学習モデルを用いて、上記特定のテーマに関連付けられたテキスト・データ(テキスト・データ2という)を特定しうる。
本発明に従う上記第4の実施態様(危険表現学習フェーズ)において、上記第1の電子装置では、
上記第1の部分集合取得手段が、上記テキスト・データ1、上記テキスト・データ2、及び特定の期間情報に関連付けられたテキスト・データのうちの少なくとも2つについて集合演算(例えば、集合積又は集合和)をして、上記特定のテーマに関連付けられたテキスト・データの部分集合を取得しうる。
本発明に従う上記第4の実施態様(危険表現学習フェーズ)において、上記第1の電子装置では、
上記第1のテキスト・データ取得手段が、
上記第1の部分集合取得手段が取得した上記部分集合において、上記ネガティブ情報に該当する単語若しくはフレーズを特定し、
上記特定された単語若しくはフレーズを有するテキスト・データを抽出しうる。
本発明に従う上記第4の実施態様(危険表現学習フェーズ)において、上記第1の電子装置では、
上記第1のテキスト・データ取得手段が、
ネガティブ情報であることを判定可能な単語若しくはフレーズを含むネガティブ情報辞書を用いて、上記第1の部分集合取得手段が取得した部分集合において、上記ネガティブ情報に該当する単語若しくはフレーズを特定しうる。
本発明に従う上記第4の実施態様(危険表現学習フェーズ)において、上記第1の電子装置では、
上記第1のテキスト・データ取得手段が、
上記第1の部分集合取得手段が上記取得した部分集合から、学習済みの機械学習モデルを用いて、上記ネガティブ情報に該当する単語若しくはフレーズを有するテキスト・データを抽出しうる。
本発明に従う上記第4の実施態様(危険表現学習フェーズ)において、上記第1の電子装置では、
上記第1の危険表現抽出手段が、上記抽出した危険表現を危険表現リストに格納しうる。
本発明に従う上記第4の実施態様(危険表現学習フェーズ)において、上記第1の電子装置では、
上記第1の危険表現抽出手段がさらに、上記特定のテーマをさらに抽出しうる。
(第1の電子装置が危険表現検出フェーズを実施する場合)
本発明に従う第5の実施態様(危険表現検出フェーズ)において、上記第1の電子装置では、
上記第1の部分集合取得手段がさらに、分析対象のテキスト・データから、上記特定のテーマに関連付けられたテキスト・データの部分集合を取得し、
上記第1の危険表現抽出手段がさらに、上記第1の部分集合取得手段が上記分析対象のテキスト・データから取得した上記部分集合において、上記危険表現となりうる表現が存在することを検出しうる。
本発明に従う上記第5の実施態様(危険表現検出フェーズ)において、上記第1の電子装置では、
上記第1の部分集合取得手段が、特定のテーマの為に用いられる単語若しくはフレーズを含むテーマ特定辞書を用いて、上記特定のテーマに関連付けられたテキスト・データを特定しうる。
本発明に従う上記第5の実施態様(危険表現検出フェーズ)において、上記第1の電子装置では、
上記第1の部分集合取得手段が、上記分析対象のテキスト・データ中に存在する上記テーマ特定辞書に含まれる単語若しくはフレーズの前後の所定の文字数若しくは所定の単語数にある範囲を、又は、
上記テーマ特定辞書に含まれる単語若しくはフレーズを含むテキスト・データを有する同一の文、同一の段落、同一の項目若しくは同一の文書を
上記特定のテーマに関連付けられたテキスト・データ(テキスト・データ1という)として特定しうる。
本発明に従う上記第5の実施態様(危険表現検出フェーズ)において、上記第1の電子装置では、
上記第1の部分集合取得手段が、上記分析対象のテキスト・データから、学習済みの学習モデルを用いて、上記特定のテーマに関連付けられたテキスト・データ(テキスト・データ2という)を特定しうる。
本発明に従う上記第5の実施態様(危険表現検出フェーズ)において、上記第1の電子装置では、
上記第1の部分集合取得手段が、上記テキスト・データ1、上記テキスト・データ2、及び特定の期間情報に関連付けられたテキスト・データのうちの少なくとも2つについて集合演算(例えば、集合積又は集合和)をして、上記特定のテーマに関連付けられたテキスト・データの部分集合を取得しうる。
本発明に従う上記第5の実施態様(危険表現検出フェーズ)において、上記第1の電子装置では、
上記第1のテキスト・データ取得手段が、
上記第1の部分集合取得手段が取得した上記部分集合において、上記ネガティブ情報に該当する単語若しくはフレーズを特定し、
上記特定された単語若しくはフレーズを有するテキスト・データを抽出しうる。
本発明に従う上記第5の実施態様(危険表現検出フェーズ)において、上記第1の電子装置では、
上記第1のテキスト・データ取得手段がさらに、上記第1の部分集合取得手段が上記分析対象のテキスト・データから取得した上記部分集合において、ネガティブ情報を有するテキスト・データを抽出し、
上記第1の危険表現抽出手段がさらに、上記第1のテキスト・データ取得手段が抽出した上記分析対象のテキスト・データからのテキスト・データにおいて、上記危険表現となりうる表現が存在することを検出しうる。
本発明に従う上記第5の実施態様(危険表現検出フェーズ)において、上記第1の電子装置では、
上記第1のテキスト・データ取得手段が、
上記第1の部分集合取得手段が取得した上記部分集合において、上記ネガティブ情報に該当する単語若しくはフレーズを特定し、
上記特定された単語若しくはフレーズを有するテキスト・データを抽出しうる。
本発明に従う上記第5の実施態様(危険表現検出フェーズ)において、上記第1の電子装置では、
上記第1のテキスト・データ取得手段が、
ネガティブ情報であることを判定可能な単語若しくはフレーズを含むネガティブ情報辞書を用いて、上記第1の部分集合取得手段が取得した部分集合において、上記ネガティブ情報に該当する単語若しくはフレーズを特定しうる。
本発明に従う上記第5の実施態様(危険表現検出フェーズ)において、上記第1の電子装置では、
上記第1のテキスト・データ取得手段が、
上記第1の部分集合取得手段が上記取得した部分集合から、学習済みの機械学習モデルを用いて、上記ネガティブ情報に該当する単語若しくはフレーズを有するテキスト・データを抽出しうる。
本発明に従う上記第5の実施態様(危険表現検出フェーズ)において、上記第1の電子装置では、
上記第1の危険表現抽出手段がさらに、上記特定のテーマをさらに抽出しうる。
本発明に従う上記第5の実施態様(危険表現検出フェーズ)において、上記第1の電子装置は
上記危険表現となりうる表現が存在することに応じて、上記分析対象のテキスト・データをネットワーク上に送信又はアップロードすることを中止又は中断すること、
上記危険表現となりうる表現が存在することに応じて、上記分析対象のテキスト・データが上記危険表現を有していることを示す表示を画面上に表示すること、
上記危険表現となりうる表現が存在することに応じて、上記分析対象のテキスト・データが上記危険表現を有していることを示すメッセージを上記分析対象のテキストを提供したユーザの電子装置に送信すること、
上記危険表現となりうる表現が存在することに応じて、上記特定のテーマと上記危険表現となりうる表現の出現数とを示す表示を画面上に表示すること
のうちの少なくとも1つをさらに実行する特定処理実行手段をさらに備えうる。
(第2の電子装置が危険表現検出フェーズを実施する場合)
本発明に従う第6の実施態様(危険表現検出フェーズ)において、上記第2の電子装置が、
分析対象のテキスト・データから、上記特定のテーマに関連付けられたテキスト・データの部分集合を取得する第2の部分集合取得手段と、
上記第2の部分集合取得手段が取得した上記部分集合において、上記第1の電子装置の上記第1の危険表現抽出手段が抽出した危険表現となりうる表現が存在することを検出する第2の危険表現検出手段と
を備えている。
本発明に従う上記第6の実施態様(危険表現検出フェーズ)において、上記第2の電子装置では、
上記第2の部分集合取得手段が、特定のテーマの為に用いられる単語若しくはフレーズを含むテーマ特定辞書を用いて、上記特定のテーマに関連付けられたテキスト・データを特定しうる。
本発明に従う上記第6の実施態様(危険表現検出フェーズ)において、上記第2の電子装置では、
上記第2の部分集合取得手段が、上記分析対象のテキスト・データ中に存在する上記テーマ特定辞書に含まれる単語若しくはフレーズの前後の所定の文字数若しくは所定の単語数にある範囲を、又は、
上記テーマ特定辞書に含まれる単語若しくはフレーズを含むテキスト・データを有する同一の文、同一の段落、同一の項目若しくは同一の文書を
上記特定のテーマに関連付けられたテキスト・データ(テキスト・データ1という)として特定しうる。
本発明に従う上記第6の実施態様(危険表現検出フェーズ)において、上記第2の電子装置では、
上記第2の部分集合取得手段が、上記分析対象のテキスト・データから、学習済みの学習モデルを用いて、上記特定のテーマに関連付けられたテキスト・データ(テキスト・データ2という)を特定しうる。
本発明に従う上記第6の実施態様(危険表現検出フェーズ)において、上記第2の電子装置では、
上記第2の部分集合取得手段が、上記テキスト・データ1、上記テキスト・データ2、及び特定の期間情報に関連付けられたテキスト・データのうちの少なくとも2つについて集合演算(例えば、集合積又は集合和)をして、上記特定のテーマに関連付けられたテキスト・データの部分集合を取得しうる。
本発明に従う上記第6の実施態様(危険表現検出フェーズ)において、上記第2の電子装置では、
上記第2のテキスト・データ取得手段が、
上記第2の部分集合取得手段が取得した上記部分集合において、上記ネガティブ情報に該当する単語若しくはフレーズを特定し、
上記特定された単語若しくはフレーズを有するテキスト・データを抽出しうる。
本発明に従う上記第6の実施態様(危険表現検出フェーズ)において、上記第2の電子装置が、
上記第2の部分集合取得手段が取得した上記部分集合から、ネガティブ情報を有するテキスト・データを抽出する第2のテキスト・データ取得手段をさらに備えており、
上記第2の危険表現検出手段が、上記第2のテキスト・データ取得手段が抽出したテキスト・データにおいて、上記危険表現となりうる表現が存在することを検出しうる。
本発明に従う上記第6の実施態様(危険表現検出フェーズ)において、上記第2の電子装置では、
上記第2のテキスト・データ取得手段が、
上記第2の部分集合取得手段が取得した上記部分集合において、上記ネガティブ情報に該当する単語若しくはフレーズを特定し、
上記特定された単語若しくはフレーズを有するテキスト・データを抽出しうる。
本発明に従う上記第6の実施態様(危険表現検出フェーズ)において、上記第2の電子装置では、
上記第2のテキスト・データ取得手段が、
ネガティブ情報であることを判定可能な単語若しくはフレーズを含むネガティブ情報辞書を用いて、上記第1の部分集合取得手段が取得した部分集合において、上記ネガティブ情報に該当する単語若しくはフレーズを特定しうる。
本発明に従う上記第6の実施態様(危険表現検出フェーズ)において、上記第2の電子装置では、
上記第2のテキスト・データ取得手段が、
上記第2の部分集合取得手段が上記取得した部分集合から、学習済みの機械学習モデルを用いて、上記ネガティブ情報に該当する単語若しくはフレーズを有するテキスト・データを抽出しうる。
本発明に従う上記第6の実施態様(危険表現検出フェーズ)において、上記第2の電子装置では、
上記第2の危険表現抽出手段がさらに、上記特定のテーマをさらに抽出しうる。
本発明に従う上記第6の実施態様(危険表現検出フェーズ)において、上記第2の電子装置は
上記危険表現となりうる表現が存在することに応じて、上記分析対象のテキスト・データをネットワーク上に送信又はアップロードすることを中止又は中断すること、
上記危険表現となりうる表現が存在することに応じて、上記分析対象のテキスト・データが上記危険表現を有していることを示す表示を画面上に表示すること、
上記危険表現となりうる表現が存在することに応じて、上記分析対象のテキスト・データが上記危険表現を有していることを示すメッセージを上記分析対象のテキストを提供したユーザの電子装置に送信すること、
上記危険表現となりうる表現が存在することに応じて、上記特定のテーマと上記危険表現となりうる表現の出現数とを示す表示を画面上に表示すること
のうちの少なくとも1つをさらに実行する特定処理実行手段をさらに備えうる。
(第1の電子装置が危険表現学習フェーズを実施し且つ第2の電子装置が危険表現検出フェーズを実施する電子装置システムの場合)
本発明に従う第7の実施態様において、特定のテーマに依存して危険表現となりうる表現を検出するための電子装置システムは、危険表現学習フェーズを実施する第1の電子装置と、危険表現検出フェーズを実施する第2の電子装置とを備えており、
上記第1の電子装置が、
学習用のテキスト・データから、上記特定のテーマ及び任意的に特定の期間情報に関連付けられたテキスト・データの部分集合を取得する第1の部分集合取得手段と、
上記取得した部分集合から、ネガティブ情報を有するテキスト・データを抽出する第1のテキスト・データ抽出手段と、
上記抽出されたテキスト・データから、(1)当該抽出されたテキスト・データに相関が高い単語若しくはフレーズを、又は、(2)当該抽出されたテキスト・データ中の出現頻度の高い単語若しくはフレーズを、上記特定のテーマに依存して危険表現となりうる表現として抽出する第1の危険表現抽出手段と
を備えており、
上記第2の電子装置が、
分析対象のテキスト・データから、上記特定のテーマに関連付けられたテキスト・データの部分集合を取得する第2の部分集合取得手段と、
上記第2の部分集合取得手段が取得した上記部分集合において、上記第1の危険表現抽出手段が抽出した危険表現となりうる表現が存在することを検出する第2の危険表現検出手段と
を備えている。
本発明に従う上記第7の実施態様において、危険表現検出フェーズを実施する上記第2の電子装置が、
上記第2の部分集合取得手段が取得した上記部分集合から、ネガティブ情報を有するテキスト・データを抽出する第2のテキスト・データ取得手段をさらに備えており、及び、
上記第2の危険表現検出手段が、上記第2のテキスト・データ取得手段が抽出したテキスト・データにおいて、上記危険表現となりうる表現が存在することを検出しうる。
(第1の電子装置に危険表現学習フェーズ及び危険表現検出フェーズを実施させる電子装置用プログラムの場合)
本発明に従う第8の実施態様において、特定のテーマに依存して危険表現となりうる表現を検出するための電子装置用プログラム(例えば、コンピュータ・プログラム)又は電子装置用プログラム製品(例えば、コンピュータ・プログラム製品)は、上記第1の電子装置に、上記第1の実施態様に記載の方法の各ステップを実行させ、且つ任意的に、当該上記第1の電子装置に、上記第2の実施態様に記載の方法の各ステップを実行させる。
本発明に従う第9の実施態様において、特定のテーマに依存して危険表現となりうる表現を検出するための電子装置用プログラム又は電子装置用プログラム製品は、上記第1の電子装置に上記第1の実施態様に記載の方法の各ステップを実施させ、且つ任意的に、上記第2の電子装置に、上記第3の実施態様に記載の方法の各ステップを実行させる。
本発明に従う上記第8及び第9の各実施態様に従う電子装置用プログラムはそれぞれ、一つ又は複数のフレキシブル・ディスク、MO、CD−ROM、DVD、BD、ハードディスク装置、USBに接続可能なメモリ媒体、ROM、MRAM、RAM等の任意の電子装置読み取り可能な記録媒体(例えば、コンピュータ読み取り可能な記録媒体)に格納することができる。当該電子装置用プログラムは、上記記録媒体への格納のために、通信回線で接続する他の電子装置、例えばサーバ・コンピュータからダウンロードしたり、又は他の記録媒体から複製したりすることができる。また、本発明の実施態様に従う電子装置用プログラムは、圧縮し、又は複数に分割して、単一又は複数の記録媒体に格納することもできる。また、様々な形態で、本発明の実施態様に従う電子装置用プログラム製品を提供することも勿論可能であることにも留意されたい。本発明の実施態様に従う電子装置用プログラム製品は、例えば、上記電子装置用プログラムを記録した記憶媒体、又は、上記電子装置用プログラムを伝送する伝送媒体を包含しうる。
本発明の上記概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの構成要素のコンビネーション又はサブコンビネーションもまた、本発明となりうることに留意すべきである。
本発明の実施態様において使用される電子装置の各ハードウェア構成要素を、複数のマシンと組み合わせ、それらに機能を配分し実施する等の種々の変更は当業者によって容易に想定され得ることは勿論である。それらの変更は、当然に本発明の思想に包含される概念である。ただし、これらの構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。
また、本発明は、ハードウェア、ソフトウェア、又は、ハードウェア及びソフトウェアの組み合わせとして実現可能である。ハードウェアとソフトウェアとの組み合わせによる実行において、上記電子装置用プログラムのインストールされた電子装置における実行が典型的な例として挙げられる。かかる場合、当該電子装置用プログラムが当該電子装置のメモリにロードされて実行されることにより、当該電子装置用プログラムは、当該電子装置を制御し、本発明にかかる処理を実行させる。当該電子装置用プログラムは、任意の言語、コード、又は、表記によって表現可能な命令群から構成されうる。そのような命令群は、当該コンピュータが特定の機能を直接的に、又は、1.他の言語、コード若しくは表記への変換及び、2.他の媒体への複製、のいずれか一方若しくは双方が行われた後に、本発明の実施態様に従う処理を実行することを可能にするものである。
本発明の実施態様に従うと、特定のテーマに依存して危険表現となりうる表現を検出することが可能になる。また、本発明の実施態様に従うと、特定のテーマ及び特定の期間に依存して危険表現となりうる表現を検出することが可能になる。上記検出を可能にすることは、例えばSNSを管理する管理サーバが、ユーザの投稿内容が危険表現となりうる表現を含むことを予め当該ユーザに知らせるサービスを提供することを可能にする。また、上記検出を可能にすることは、例えばSNSを利用するユーザのユーザ端末が、投稿前に、当該投稿内容が危険表現となりうる表現を含むことを当該ユーザに知らせるサービスを提供することを可能にする。さらに、上記検出を可能にすることは、危険表現となりうる表現の傾向分析をする為のツールを提供することを可能にする。
本発明の実施態様において使用されうる電子装置(上記第1の電子装置又は上記第2の電子装置)を実現するためのハードウェア構成の一例であり、当該電子装置が例えばコンピュータである場合を示した図である。 本発明の実施態様において使用されうる電子装置(上記第1の電子装置又は上記第2の電子装置)を実現するためのハードウェア構成の一例であり、当該電子装置が例えばタブレット端末、スマートフォン、携帯電話、パーソナル・ディジタル・アシスタント(PDA)、医療機器端末、ゲーム端末、カー・ナビゲーション・システム、ポータブル・ナビゲーション・システム若しくはキヨスク端末である場合を示した図である。 本発明の実施態様に従い、学習用のテキスト・データを用いて、特定のテーマに依存して危険表現となりうる表現を抽出し、危険表現リストを作成する危険表現学習フェーズの処理の流れを示すフローチャートである。 本発明の実施態様に従う危険表現学習フェーズの処理の流れにおいて、学習用のテキスト・データから、特定のテーマに関連付けられたテキスト・データの部分集合を取得する為の処理の流れを示すフローチャートである。 本発明の実施態様に従う危険表現学習フェーズの処理において、学習用のテキスト・データから、特定のテーマに関連付けられたテキスト・データを特定するために用いられる学習済みの学習モデルを作成することのモデル図を示す。 本発明の実施態様に従う危険表現学習フェーズの処理において、学習用のテキスト・データから、学習済みの学習モデルを用いて、特定のテーマに関連付けられたテキスト・データを特定することのモデル図を示す。 本発明の実施態様に従う危険表現学習フェーズの処理において、ネガティブ情報に該当する単語又はフレーズを特定すること、ネガティブ情報を有するテキスト・データを抽出すること、及び、当該抽出されたデータから上記特定のテーマに依存して危険表現となりうる表現を抽出することのモデル図を示す。 本発明の実施態様に従い、分析対象のテキスト・データから、特定のテーマに依存して危険表現となりうる表現が存在するかどうかを検出する危険表現検出フェーズの処理の流れを示すフローチャートである。 本発明の実施態様に従う危険表現検出フェーズ処理において、例えばSNSの管理サーバが、特定のテーマ(震災)に依存して危険表現となりうる表現(批判となりうる表現)の書き込みを未然に防ぐサービスをSNSのユーザに対して提供する実施例を示す。 本発明の実施態様に従う危険表現検出フェーズ処理において、例えば情報の発信者が、特定のテーマ(震災)に依存して危険表現となりうる表現(批判となりうる表現)の書き込みを予め認識する実施例を示す。 本発明の実施態様に従う危険表現検出フェーズ処理において、例えばSNSの管理サーバが、特定のテーマ、当該特定のテーマに依存して危険表現となりうる表現、及び当該危険表現となりうる表現の出現回数を示す実施例を示す。 図1に従うハードウェア構成を好ましくは備えており、本発明の実施態様に従う危険表現学習フェーズ処理、及び任意的に本発明の実施態様に従う危険表現検出フェーズ処理を実行する第1の電子装置の機能ブロック図の一例を示した図である。 図1に従うハードウェア構成を好ましくは備えており、本発明の実施態様に従う危険表現検出フェーズ処理を実行する第2の電子装置の機能ブロック図の一例を示した図である。
本発明の実施形態を、以下に図面に従って説明する。以下の図を通して、特に断らない限り、同一の符号は同一の対象を指す。本発明の実施形態は、本発明の好適な態様を説明するためのものであり、本発明の範囲をここで示すものに限定する意図はないことを理解されたい。
本発明の実施態様において使用されうる上記第1の電子装置は、上記危険表現学習フェーズの処理、及び任意的に上記危険表現検出フェーズの処理を実施することができる電子装置であれば特に限定されない。当該第1の電子装置は例えば、例えば、コンピュータ(例えば、サーバ・コンピュータ、デスクトップ・コンピュータ、ノート・コンピュータ若しくは一体型パソコン)、又は、タブレット端末(例えば、アンドロイド(登録商標)端末、Windows(登録商標)タブレット、若しくはiOS(登録商標)端末)、スマートフォン、携帯電話、パーソナル・ディジタル・アシスタント(PDA)、医療機器端末、ゲーム端末、カー・ナビゲーション・システム、ポータブル・ナビゲーション・システム若しくはキヨスク端末でありうる。
本発明の実施態様において使用されうる上記第2の電子装置は、上記危険表現検出フェーズの処理を実施することができる電子装置であれば特に限定されない。当該第2の電子装置は、上記第1の電子装置と同様に、例えば、例えば、コンピュータ(例えば、サーバ・コンピュータ、デスクトップ・コンピュータ、ノート・コンピュータ若しくは一体型パソコン)、又は、タブレット端末(例えば、アンドロイド(登録商標)端末、Windows(登録商標)タブレット、若しくはiOS(登録商標)端末)、スマートフォン、携帯電話、パーソナル・ディジタル・アシスタント(PDA)、医療機器端末、ゲーム端末、カー・ナビゲーション・システム、ポータブル・ナビゲーション・システム若しくはキヨスク端末でありうる。
図1A及び図1Bは、本発明の実施態様において使用されうる電子装置(第1の電子装置又は第2の電子装置)を実現するためのハードウェア構成の一例を示した図である。
図1Aは、本発明の実施態様において使用されうる上記電子装置のうちコンピュータ、例えばデスクトップ・コンピュータ、ノート・コンピュータ又は一体型パソコンの一例を示した図である。
電子装置(101)は、CPU(102)とメイン・メモリ(103)とを備えており、これらはバス(104)に接続されている。CPU(102)は好ましくは、32ビット又は64ビットのアーキテクチャに基づくものである。当該CPU(102)は例えば、インテル社のCore(商標) iシリーズ、Core(商標) 2シリーズ、Atom(商標)シリーズ、Xeon(登録商標)シリーズ、Pentium(登録商標)シリーズ若しくはCeleron(登録商標)シリーズ、AMD(Advanced Micro Devices)社のAシリーズ、Phenom(商標)シリーズ、Athlon(商標)シリーズ、Turion(登録商標)シリーズ若しくはSempron(商標)、又は、インターナショナル・ビジネス・マシーンズ・コーポレーションのPower(商標)シリーズでありうる。
バス(104)には、ディスプレイ・コントローラ(105)を介して、ディスプレイ(106)、例えば液晶ディスプレイ(LCD)が接続されうる。また、液晶ディスプレイ(LCD)は例えば、タッチパネル・ディスプレイ又はフローティング・タッチ・ディスプレイであってもよい。ディスプレイ(106)は、電子装置(101)上で動作中のソフトウェア(例えば、本発明の実施態様に従う電子装置用プログラム又は当該電子装置(101)上で動作中の各種電子装置用プログラム)が稼働することによって表示されるオブジェクトを、適当なグラフィック・インタフェースで表示するために使用されうる。
バス(104)には任意的に、例えばSATA又はIDEコントローラ(107)を介して、ディスク(108)、例えばハードディスク又はソリッド・ステート・ドライブ(SSD)が接続されうる。
バス(104)には任意的に、例えばSATA又はIDEコントローラ(107)を介して、ドライブ(109)、例えばCD、DVD又はBDドライブが接続されうる。
バス(104)には、周辺装置コントローラ(110)を介して、例えばキーボード・マウス・コントローラ又はUSBバスを介して、任意的に、キーボード(111)及びマウス(112)が接続されうる。
ディスク(108)には、オペレーティング・システム、例えばWindows(登録商標)OS、UNIX(登録商標)、MacOS(登録商標)、及びJ2EEなどのJava(登録商標)処理環境、Java(登録商標)アプリケーション、Java(登録商標)仮想マシン(VM)、Java(登録商標)実行時(JIT)コンパイラを提供するプログラム、本発明の実施態様に従うコンピュータ・プログラム、及びその他のプログラム、並びにデータが、メイン・メモリ(103)にロード可能なように記憶されうる。
ディスク(108)は、電子装置(101)内に内蔵されていてもよく、当該電子装置(101)がアクセス可能なようにケーブルを介して接続されていてもよく、又は、当該電子装置(101)がアクセス可能なように有線又は無線ネットワークを介して接続されていてもよい。
ドライブ(109)は、必要に応じて、CD−ROM、DVD−ROM又はBDからプログラム、例えばオペレーティング・システム、アプリケーション又は本発明の実施態様に従う電子装置用プログラムをディスク(108)にインストールするために使用されうる。
通信インタフェース(114)は、例えばイーサネット(登録商標)・プロトコルに従う。通信インタフェース(114)は、通信コントローラ(113)を介してバス(104)に接続され、電子装置(101)を通信回線(115)に有線又は無線接続する役割を担い、電子装置(101)のオペレーティング・システムの通信機能のTCP/IP通信プロトコルに対して、ネットワーク・インタフェース層を提供する。なお、通信回線は例えば、無線LAN接続規格に基づく無線LAN環境、IEEE802.11a/b/g/nなどのWi-Fi無線LAN環境、又は携帯電話網環境(例えば、3G又は4G環境)でありうる。
図1Bは、本発明の実施態様において使用されうる上記電子装置のうち、例えば、タブレット端末、スマートフォン、携帯電話、パーソナル・ディジタル・アシスタント(PDA)、医療機器端末、ゲーム端末、カー・ナビゲーション・システム、ポータブル・ナビゲーション・システム若しくはキヨスク端末の一例を示した図である。
図1Bに示す電子装置(121)のCPU(122)、メイン・メモリ(123)、バス(124)、ディスプレイ・コントローラ(125)、ディスプレイ(126)、SSD(128)、通信コントローラ(133)、通信インタフェース(134)及び通信回線(135)はそれぞれ、図1Aに示す電子装置(101)のCPU(102)、メイン・メモリ(103)、バス(104)、ディスプレイ・コントローラ(105)、ディスプレイ(106)、SSD(108)、通信コントローラ(113)、通信インタフェース(114)及び通信回線(115)に対応する。
タブレット端末等の場合、CPU(122)は例えば、スマートフォン、携帯電話若しくはタブレット端末用のCPU、又はアップル社のAシリーズでありうる。
SSD(128)ディスクには例えば、スマートフォン用OS(例えば、アンドロイド(登録商標)OS、Windows(登録商標)PhoneOS若しくはWindows(登録商標)OS、又はiOS(登録商標))、本発明の実施態様に従うアプリケーション・プログラム、及びその他のプログラム、並びにデータが、メイン・メモリ(123)にロード可能なように記憶されうる。
キーボード実現手段(130)は、アプリの一つとして、ディスプレイ(126)上にソフトウェアキーボードを表示する。
図2Aは、本発明の実施態様に従い、学習用のテキスト・データを用いて、特定のテーマに依存して危険表現となりうる表現を抽出し、危険表現リストを作成する危険表現学習フェーズの処理の流れを示すフローチャートである。
以下に示す図2A及び図2Bの説明において電子装置という場合には、当該電子装置は、危険表現学習フェーズの処理を実施する上記第1の電子装置を意味する。
ステップ201において、電子装置は、危険表現学習フェーズの処理を開始する。
ステップ202において、電子装置は、特定のテーマに依存して危険表現となりうる表現を抽出する為に、学習用のテキスト・データ(291)を受け取る。電子装置は、当該学習用のテキスト・データを、例えば、サーバ・コンピュータを介して、又は、記録媒体(例えば、CD,DVD,USBメモリ、若しくはハードディスク)を介して受け取りうる。学習用のテキスト・データは例えば、誹謗中傷の抽出対象となるテキスト・データの集合であり、例えばブログや掲示板のデータの集合でありうる。学習用のテキスト・データは例えば、Twitter(登録商標)のツイートの集合、又は、FACEBOOK(登録商標)やLINE(商標)の1メッセージの集合でありうる。
ステップ203において、電子装置は、ステップ202で受け取った学習用のテキスト・データから、特定のテーマに関連付けられたテキスト・データの部分集合を取得する。電子装置は例えば、テーマ特定辞書(292)を使用して、特定のテーマに関連付けられたテキスト・データを特定し、上記テキスト・データの部分集合を取得しうる。
特定のテーマに関連付けられたテキスト・データは例えば、特定のテーマに関連付けられた文脈を有するテキスト・データでありうる。
特定のテーマは例えば、震災、復興、節電、地震若しくは津波;特定の企業の製品名若しくはサービス名;又は、秘密情報に関する語でありうるが、これらに限定されるものでない。例えば、語「震災」、語「復興」は、特定のテーマ「震災」の文脈を特定する為に用いられうる。
テーマ特定辞書(292)は、特定のテーマの為に用いられる単語又はフレーズを含みうる。
ステップ203の詳細、すなわち、特定のテーマに関連付けられたテキスト・データの部分集合を取得する処理の詳細については、下記図2Bの説明において説明する。
ステップ204において、電子装置は、表層的(文字面的)なネガティブ情報を用いてネガティブ情報を有するテキスト・データ(ネガティブ情報の文脈を有するテキスト・データ)に絞り込む為に、最初に、ステップ203において取得したテキスト・データの部分集合(すなわち、特定のテーマに関連付けられたテキスト・データ)において、ネガティブ情報に該当する単語又はフレーズを特定する。電子装置は例えば、ネガティブ情報辞書(293)を使用して、ネガティブ情報に該当する単語又はフレーズを特定しうる。
ネガティブ情報は、文脈に関係なく、例えば、誹謗中傷に該当する語句(例えば、詐欺、問題、止めて欲しい、辞めて欲しい、迷惑、悲しい、醜い、馬鹿、無能、嘘つき、悲しい、許せない、悪い、最悪、偽善者、仲間外れ、コネ)、規制語句(例えば、政府又は企業によって策定されている規制語句)、風評情報に該当する語句(例えば、商品の欠陥、サービスの低下)、情報漏洩に該当する語句(例えば、情報漏洩、情報流出、秘密情報、社外秘、部外秘、特許出願前)、又は事件性を予想させるような語句(例えば、自殺、殺人)でありうる。
ネガティブ情報辞書(293)は、上記ネガティブ情報に該当する単語又はフレーズを含みうる。
ステップ204の具体例、すなわち、ネガティブ情報に該当する単語又はフレーズを特定する例については、下記図5に示す。
ステップ205において、電子装置は、表層的(文字面的)なネガティブ情報を用いてネガティブ情報を有するテキスト・データ(ネガティブ情報の文脈を有するテキスト・データ)に絞り込む為に、次に、ステップ203で取得した部分集合から、ステップ204において特定した単語又はフレーズを含むテキスト・データを抽出する。
ステップ205の具体例、すなわち、ネガティブ情報を有するテキスト・データを抽出する例については、下記図5に示す。
ステップ206において、電子装置は、ステップ205で抽出したテキスト・データ(すなわち、特定のテーマに関連付けられたテキスト・データであって且つネガティブ情報を有するテキスト・データ)から、下記単語又はフレーズを特定する:
(1)ステップ205で抽出したテキスト・データに相関が高い単語若しくはフレーズ;又は、
(2)ステップ205で抽出したテキスト・データ中の出現頻度の高い単語若しくはフレーズ。
テキスト・データに相関が高い単語若しくはフレーズを特定する方法は、当業者に知られている任意の手法を用いることができる。当該テキスト・データに相関が高い単語若しくはフレーズは例えば、以下の方法で特定されうる。テキスト・データ全体の文書数をD、当該テキスト・データの部分集合の文書数をA、ある単語若しくはフレーズwを含む文書の数をB、及び、上記テキスト・データの部分集合の文書のうちwを含む文書の数をCとした場合に、CD/ABが1に比べて大きいことをもって、wを、上記テキスト・データに相関が高い単語若しくはフレーズとして特定する。
電子装置は、当該テキスト・データにおける上記単語又はフレーズの特定において、少なくも2つの単語の共起表現を危険表現となりうる表現として特定しうる。当該テキスト・データに相関が高い単語若しくはフレーズの共起は例えば、以下の方法で特定されうる。テキスト・データ全体の文書数をD、当該テキスト・データの部分集合の文書数をA、ある単語若しくはフレーズw1及びw2を2つとも含む文書の数をB、及び、上記テキスト・データの部分集合の文書のうちw1及びw2を2つとも含む文書の数をCとした場合に、CD/ABが1に比べて大きいことをもって、共起(w1,w2)を、上記テキスト・データに相関が高い単語若しくはフレーズの共起として特定する。
ステップ207において、電子装置は、ステップ206で特定した単語又はフレーズを、ステップ203で使用した特定のテーマに依存して危険表現となりうる表現として抽出する。また、電子装置は、上記危険表現となりうる表現とともに、ステップ203で使用された特定のテーマを抽出しうる。
特定のテーマに依存して危険表現となりうる表現とは、テキスト・全体ではネガティブ情報(例えば、上記誹謗中傷に該当する語句)ではないが、特定のテーマに依存して危険表現となりうる表現(例えば、上記ネガティブ情報誹謗中傷になりうる表現、その中でも例えば上記誹謗中傷になりうる表現)である。
電子装置は、上記抽出した危険表現となりうる表現を上記特定のテーマに紐付けて(関連付けて)、危険表現リスト(294)中に保存しうる。従って、危険表現リスト(294)は、特定のテーマと、当該特定のテーマに関連付けられた危険表現となりうる少なくとも1つの表現とを1組とするデータを有している。危険表現リスト(294)は、下記図6に示す危険表現検出フェーズの処理において使用される(図6のステップ607を参照)。
任意ステップであるステップ208において、電子装置は、危険表現検出フェーズの処理を引き続き行うかどうかを判断するために、分析対象のテキスト・データがあるかどうかを判定する。電子装置は、分析対象のテキスト・データが存在することに応じて、処理を図6に記載のステップ602に進める。一方、電子装置は、分析対象のテキスト・データが存在しないことに応じて、処理を終了ステップ209に進める。
ステップ209において、電子装置は、危険表現学習フェーズの処理を終了する。
図2Bは、図2Aに示す危険表現学習フェーズの処理の流れのステップ203(学習用のテキスト・データから、特定のテーマに関連付けられたテキスト・データの部分集合を取得する為の処理)の処理の詳細を示すフローチャートである。
ステップ211において、電子装置は、学習用のテキスト・データから、特定のテーマに関連付けられたテキスト・データの部分集合を取得する為の処理を開始する。
ステップ212において、電子装置は、下記1−1の判定方法を用いて上記テキスト・データの部分集合を取得するかどうかを判断する。当該1−1の判定方法は下記の通りである:
(1)学習用のテキスト・データ(291)中に存在するテーマ特定辞書(292)に含まれる単語若しくはフレーズの前後の所定の文字数若しくは所定の単語数にある範囲を特定のテーマに関連付けられたテキスト・データ1として特定する:又は、
(2)テーマ特定辞書(292)に含まれる単語若しくはフレーズを含むテキスト・データを有する同一の文、同一の段落、同一の項目若しくは同一の文書を、特定のテーマに関連付けられたテキスト・データ1として特定する。
電子装置は、上記1−1の判定方法を用いて上記テキスト・データの部分集合を取得することに応じて、処理をステップ213に進める。一方、電子装置は、上記1−1の判定方法を用いて上記テキスト・データの部分集合を取得しないことに応じて、処理をステップ214に進める。
ステップ213において、電子装置は、上記1−1の判定方法を用いて、学習用のテキスト・データから、特定のテーマに関連付けられたテキスト・データ1を取得する。
上記1−1の判定方法のうちの前者は、学習用のテキスト・データ(291)中に出現し且つテーマ特定辞書(292)に含まれる単語若しくはフレーズの前後の所定の文字数又は所定の単語数にある範囲を、特定のテーマに関連付けられたテキスト・データとして特定する。従って、上記特定されたテキスト・データは、句読点によって区切られた完全な文でない場合がありうる。当該特定されたテキスト・データは、当該特定のテーマに関連する文脈でもある。例えば、特定のテーマ「震災」に関連付けられたテキスト・データを特定する為に、テーマ特定辞書(292)中に含まれており且つ学習用のテキスト・データ(291)中に存在する語「復興」が用いられているとする。電子装置は、例えばテキスト・データが日本語で記載されている場合、語「復興」(日本語)の前後の所定の文字数若しくは所定の単語数にある範囲、語「復興」(日本語)の前後の例えば60文字又は語「復興」(日本語)の前後の例えば20単語にある範囲を、特定のテーマ「震災」に関連付けられたテキスト・データ1として特定しうる。また、電子装置は、例えばテキスト・データが英語で記載されている場合、語「reconstruction」(英語)の前後の例えば120文字又は語「reconstruction」(英語)の前後の例えば20語にある範囲を、特定のテーマ「震災」に関連付けられたテキスト・データ1として特定しうる。
上記1−1の判定方法のうちの後者は、テーマ特定辞書(292)に含まれる単語若しくはフレーズを含むテキスト・データを有する同一の文、同一の段落、同一の項目若しくは同一の文書を、特定のテーマに関連付けられたテキスト・データとして特定する。当該特定されたテキスト・データは、当該特定のテーマに関連する文脈でもある。上記文書は、例えばTwitter(登録商標)、FACEBOOK(登録商標)又はLINEの一つのメッセージ、メールソフトで送信する一つのメッセージ、又は電子掲示板への1回の書き込みを含む。例えば、特定のテーマ「震災」に関連付けられたテキスト・データを特定する為に、テーマ特定辞書(292)中に含まれており且つ学習用のテキスト・データ(291)中に存在する語「震災」が用いられているとする。電子装置は、語「震災」を含むテキスト・データを有する同一の文、同一の段落、同一の項目若しくは同一の文書を、特定のテーマ「震災」に関連付けられたテキスト・データ1として特定する。
ステップ214において、電子装置は、下記1−2の判定方法を用いて上記テキスト・データの部分集合を取得するかどうかを判断する。当該1−2の判定方法は下記の通りである:
学習済みの学習モデルを用いて、上記特定のテーマに関連付けられたテキスト・データ2を特定する。
電子装置は、上記1−2の判定方法を用いて上記テキスト・データの部分集合を取得することに応じて、処理をステップ215に進める。一方、電子装置は、上記1−2の判定方法を用いて上記テキスト・データの部分集合を取得しないことに応じて、処理をステップ216に進める。
ステップ215において、電子装置は、上記1−2の判定方法を用いて、学習用のテキスト・データから、特定のテーマに関連付けられたテキスト・データ2を取得する。
上記学習済みの学習モデルは、当業者に知られている任意の機械学習の手法を用いて生成される。学習済みの学習モデルの生成方法の例は、下記図3において説明する。また、学習済みの学習モデルを用いて、上記特定のテーマに関連付けられたテキスト・データ2を特定する方法は、下記図4において説明する。
ステップ216において、電子装置は、下記1−3の判定方法を用いて上記テキスト・データの部分集合を取得するかどうかを判断する。当該1−3の判定方法は下記の通りである:
特定の期間情報を用いて、上記特定のテーマに関連付けられたテキスト・データ3を特定する。
電子装置は、上記1−3の判定方法を用いて上記テキスト・データの部分集合を取得することに応じて、処理をステップ217に進める。一方、電子装置は、上記1−3の判定方法を用いて上記テキスト・データの部分集合を取得しないことに応じて、処理をステップ218に進める。
ステップ217において、電子装置は、上記1−3の判定方法を用いて、学習用のテキスト・データから、特定のテーマに関連付けられたテキスト・データ3を取得する。
特定の期間情報は、期間と特定のテーマの文脈との対応付けを可能にする情報でありうる。特定の期間情報は例えば、2011年3月11日(日本国で発生した東日本大震災)以降である。当該特定の期間情報「2011年3月11日」は、特定のテーマ「震災」に関連付けられる為に、当該特定のテーマ「震災」に関連付けられたテキスト・データを特定するために使用されうる。
ステップ218において、電子装置は、ステップ213、ステップ215及びステップ217でそれぞれ取得したテキスト・データ1、2及び3について、集合演算をする。集合演算は例えば、集合積又は集合和を含む。電子装置は、当該集合演算をして、上記特定のテーマに関連付けられたテキスト・データの部分集合を取得する。なお、取得したテキスト・データがテキスト・データ1、2及び3のいずれか一つである場合には、電子装置は、当該一つのテキスト・データを上記特定のテーマに関連付けられたテキスト・データの部分集合とする。
ステップ219において、電子装置は、学習用のテキスト・データから、特定のテーマに関連付けられたテキスト・データの部分集合を取得する為の処理を終了する。
図3は、本発明の実施態様に従う危険表現学習フェーズの処理において、学習用のテキスト・データから、特定のテーマに関連付けられたテキスト・データを特定するために用いられる学習済みの学習モデルを作成することのモデル図を示す。
学習済みの学習モデルは、上記第1の電子装置、又は当該第1の電子装置以外の電子装置において作成されうる。以下に示す図3の説明において電子装置という場合には、当該電子装置は、上記第1の電子装置、又は当該第1の電子装置以外の電子装置を意味する。
ステップAにおいて、電子装置は、学習機へ入力するための元データ、すなわち「文脈学習用ラベル付きテキスト・データ」の元データのグループ(301)を受け取る。電子装置は、当該元データのグループ(301)を、例えば、サーバ・コンピュータを介して、又は、記録媒体(例えば、CD,DVD,USBメモリ、若しくはハードディスク)を介して受け取りうる)。図3に示す例では、上記元データのグループ(301)が元データ(311)〜(315)を含むように示しているが、これらに限定されるものではないことに留意されたい。
元データのグループ(311)は、図2Aのステップ202に示す学習用のテキスト・データとは別に用意される文書データ集合である。元データのグループ(311)は、Twitter(登録商標)のツイートの集合、又は、FACEBOOK(登録商標)やLINE(商標)の1メッセージの集合でありうる。図3に示すように、元データ(311)〜(315)にはそれぞれ、0個(311)又は1個以上(312〜315)のタグが与えられている。当該タグは例えば、元データが「震災」に該当するテキスト・データかどうかを示すものでありうる。当該タグは、必要に応じて、元データに対して電子装置によって自動的に又はユーザによって手動的に与えられうる。
ステップBにおいて、電子装置は、上記受け取った各元データ(311)〜(315)から学習モデルを作成する為に、文脈学習用ラベル付きテキスト・データのグループ(321)を作成する。図3に示す例では、文脈学習用ラベル付きテキスト・データのグループ(321)が文脈学習用ラベル付きテキスト・データ(331)〜(335)を含むように示しているが、これらに限定されるものではないことに留意されたい。
文脈学習用ラベル付きテキスト・データ(331)〜(335)はそれぞれ、元データ(311)〜(315)それぞれ中の各単語及びその出現数の情報(bag-of-words)を有している。
また、電子装置は、例えば、元データが特定のテーマ「震災」に該当するテキスト・データである場合には、すなわち元データが「東日本大震災」、「earthquake」、又は「復興支援」のタグを有している場合には、当該元データに対応する文脈学習用ラベル付きテキスト・データに「震災」のラベルを付与する。従って、図3に示す例では、文脈学習用ラベル付きテキスト・データ(331)〜(335)のうち、文脈学習用ラベル付きテキスト・データ(332)、(334)及び(335)に「震災」のラベルが付与されている。
電子装置は、学習機(例えば、ロジスティック回帰モデル)に、元データ(311)〜(315)それぞれ中の上記各単語及びその出現数の情報(bag-of-words)と、文脈学習用ラベル付きテキスト・データ(331)〜(335)が「震災」に該当するテキスト・データであるかどうかのラベル(yes/no)を入力する。すなわち、電子装置は、文脈学習用ラベル付きテキスト・データ(331)〜(335)をbag-of-wordsでベクトル化し、学習機(例えば、ロジスティック回帰モデル)に、上記ベクトルを従属変数として、文脈学習用ラベル付きテキスト・データ(331)〜(335)が特定のテーマ「震災」に該当するかしないか(yes/no)を目的変数として入力して、当該学習機を学習させる。電子装置は、学習機として、当業者に知られている任意の学習機を使用しうる。
電子装置は、学習機への上記入力によって、学習済みの学習モデルを作成する。
上記では、ロジスティック回帰モデルを述べたが、その他に例えば、k近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法、ニューラルネットワーク法、重回帰分析法による各手法を用いることができる。上記手法はいずれも当業者に知られている手法であるので、本明細書ではその説明を省略する。
図4は、本発明の実施態様に従う危険表現学習フェーズの処理において、学習用のテキスト・データから、学習済みの学習モデルを用いて、特定のテーマに関連付けられたテキスト・データを特定することのモデル図を示す。以下に示す図4の説明において、電子装置という場合には、当該電子装置は上記第1の電子装置を意味する。
電子装置は、図3に示すようにして作成した学習済みの学習モデル(403)を用いて、学習用のテキスト・データ(401)が、特定のテーマに関連付けられたテキスト・データであるかどうかを判定する。
電子装置は、図3に示した方法と同様にして、学習用のテキスト・データ(401)をbag-of-wordsでベクトル化する。そして、電子装置は、学習用のテキスト・データ(401)をテキスト・データ毎にbag-of-wordsの形式(411)で上記学習済みの学習機(402)へ入力する。
学習機(402)は、各テキスト・データが特定のテーマに関連付けられたテキスト・データであるかどうかの出力(Yes=特定のテーマに関連付けられたテキスト・データである,No=特定のテーマに関連付けられたテキスト・データでない)を電子装置に返す。
電子装置は、学習機(402)から上記出力(Yes,No)を取得し、当該出力がyesであるテキスト・データの集合を、特定のテーマに関連付けられた部分集合として取得する。
図5は、本発明の実施態様に従う危険表現学習フェーズの処理において、ネガティブ情報に該当する単語又はフレーズを特定すること(ステップ204)、ネガティブ情報を有するテキスト・データを抽出すること(ステップ205)、及び、当該抽出されたデータから上記特定のテーマに依存して危険表現となりうる表現を抽出すること(ステップ206,207)のモデル図を示す。以下に示す図5の説明において、電子装置という場合には、当該電子装置は上記第1の電子装置を意味する。
図5に示すテキスト・データのグループ(501)は、図2に示すステップ203において取得したテキスト・データ(すなわち、特定のテーマ「震災」に関連付けられたテキスト・データ)の部分集合の一部である。テキスト・データのグループ(501)は、テキスト・データ(511)〜(515)を有している。
電子装置は、テキスト・データのグループ(501)において、ネガティブ情報辞書(293)を使用して、ネガティブ情報に該当する単語又はフレーズを特定する(ステップ204を参照)。テキスト・データ(511)〜(515)のネガティブ情報はそれぞれ、「問題」、「迷惑」、「やめてほしい」、「詐欺」、及び「悲しい」である(下線一重線で特定されている部分)。
電子装置は、ネガティブ情報「問題」、「迷惑」、「やめてほしい」、「詐欺」、及び「悲しい」をそれぞれ有するテキスト・データ(511)〜(515)を抽出する(ステップ205)。図5において示していないが、ネガティブ情報を有していないテキスト・データは抽出されない。
次に、電子装置は、上記抽出されたテキスト・データ(511)〜(515)中の出現頻度の高い単語を特定する。電子装置は、出現頻度の高い単語として、「電池」及び「買う」の共起表現を特定する(ステップ206)。
そして、電子装置は、上記特定した単語「電池」及び「買う」を、特定のテーマ「震災」に依存して危険表現となりうる表現として抽出する。また、電子装置は、上記特定のテーマ「震災」を抽出する。
電子装置は、上記抽出した危険表現となりうる表現「電池」及び「買う」を上記特定のテーマ「震災」に紐付けて、危険表現リスト(294)中に保存する。
上記では、電子装置が、テキスト・データのグループ(501)において、ネガティブ情報辞書(293)を使用して、ネガティブ情報に該当する単語又はフレーズを特定し、そして当該ネガティブ情報に該当する単語又はフレーズをそれぞれ有するテキスト・データを抽出する手法を説明した。当該手法の代わりに、電子装置は、学習済みの学習モデルを用いて、テキスト・データのグループ(501)から、ネガティブ情報に該当する単語又はフレーズを有するテキスト・データを抽出しうる(図示せず)。以下に、学習済みの学習モデルを用いて、テキスト・データのグループから、ネガティブ情報に該当する単語又はフレーズを有するテキスト・データを抽出する手法を説明する。
上記学習済みの学習モデルは、図2Bのステップ215と同様に、当業者に知られている任意の機械学習の手法を用いて生成される。
学習済みの学習モデルは、上記第1の電子装置、又は当該第1の電子装置以外の電子装置において作成されうる。以下に示す学習済みの学習モデルの生成方法の説明において電子装置という場合には、当該電子装置は、上記第1の電子装置、又は当該第1の電子装置以外の電子装置を意味する。
ステップAにおいて、電子装置は、学習機へ入力するための元データ、すなわち「ネガティブ情報学習用ラベル付きテキスト・データ」の元データのグループを受け取る。電子装置は、当該元データのグループを、例えば、サーバ・コンピュータを介して、又は、記録媒体(例えば、CD,DVD,USBメモリ、若しくはハードディスク)を介して受け取りうる。
上記元データのグループは、図2Aのステップ202に示す学習用のテキスト・データとは別に用意される文書データ集合である。元データのグループは、Twitter(登録商標)のツイートの集合、又は、FACEBOOK(登録商標)やLINE(商標)の1メッセージの集合でありうる。上記元データにはそれぞれ、ラベルが予め与えられている。当該ラベルは、元データがネガティブ情報を有するか又は有しないかを示すものでありうる。代替的には、当該ラベルは、元データが既知のネガティブ情報に該当する単語又はフレーズを含むか又は含んでいないかを示すものでありうる。
ステップBにおいて、電子装置は、上記受け取った各元データから学習モデルを作成する為に、ネガティブ情報学習用ラベル付きテキスト・データのグループを作成する。
ネガティブ情報学習用ラベル付きテキスト・データはそれぞれ、上記元データそれぞれ中の各単語及びその出現数の情報(bag-of-words)を有している。
電子装置は、学習機(例えば、ロジスティック回帰モデル)に、上記元データそれぞれ中の上記各単語及びその出現数の情報(bag-of-words)と、当該ネガティブ情報学習用ラベル付きテキスト・データがネガティブ情報を有するかどうかのラベル(yes/no)を入力する。すなわち、電子装置は、ネガティブ情報学習用ラベル付きテキスト・データそれぞれをbag-of-wordsでベクトル化し、学習機(例えば、ロジスティック回帰モデル)に、上記ベクトルを従属変数として、ネガティブ情報学習用ラベル付きテキスト・データそれぞれがネガティブ情報を有するかどうか(yes/no)を目的変数として入力して、当該学習機を学習させる。電子装置は、学習機として、当業者に知られている任意の学習機を使用しうる。
電子装置は、学習機への上記入力によって、学習済みの学習モデルを作成する。
次に、電子装置は、上記のようにして作成された学習済みの学習モデルを用いて、テキスト・データのグループ(例えば、上記501)から、ネガティブ情報に該当する単語又はフレーズを有するテキスト・データを抽出しうる。
電子装置は、学習用のテキスト・データをbag-of-wordsでベクトル化する。そして、電子装置は、学習用のテキスト・データをテキスト・データ毎にbag-of-wordsの形式で上記学習済みの学習機へ入力する。
学習機は、各テキスト・データがネガティブ情報を有するかどうかの出力(Yes=ネガティブ情報を有する,No=ネガティブ情報を有していない)を電子装置に返す。
電子装置は、学習機から上記出力(Yes,No)を取得し、当該出力がyesであるテキスト・データの集合を、ネガティブ情報に該当する単語又はフレーズを有するテキスト・データとして取得する。
次に、電子装置は、上記取得されたテキスト・データそれぞれ中の出現頻度の高い単語を特定する。
そして、電子装置は、上記特定した単語を、特定のテーマ「震災」に依存して危険表現となりうる表現として抽出する。また、電子装置は、上記特定のテーマ「震災」を抽出する。
電子装置は、上記抽出した危険表現となりうる表現「電池」及び「買う」を上記特定のテーマ「震災」に紐付けて、危険表現リスト(294)中に保存する。
図5に示すテキスト・データのグループ(521)は、図2に示すステップ203において取得したテキスト・データ(すなわち、特定のテーマ「earthquake」に関連付けられたテキスト・データ)が英語である場合を示す。電子装置は、テキスト・データが英語で記述されている場合においても、日本語と同様に、ネガティブ情報に該当する単語又はフレーズを特定すること(ステップ204)、ネガティブ情報を有するテキスト・データを抽出すること(ステップ205)、及び、当該抽出されたデータから特定のテーマ「震災」に依存して危険表現となりうる表現を抽出すること(ステップ206,207)を行う。そして、電子装置は、抽出した危険表現となりうる表現「battery」及び「buy」を特定のテーマ「earthquake」に紐付けて、危険表現リスト(294)中に保存する。
代替的には、電子装置は、学習済みの学習モデルを使用して、テキスト・データのグループ(501)から、ネガティブ情報に該当する単語又はフレーズを有するテキスト・データを抽出し、当該抽出されたデータから特定のテーマ「震災」に依存して危険表現となりうる表現を抽出することを行う。そして、電子装置は、抽出した危険表現となりうる表現「battery」及び「buy」を特定のテーマ「earthquake」に紐付けて、危険表現リスト(294)中に保存する。
図6は、本発明の実施態様に従い、分析対象のテキスト・データから、特定のテーマに依存して危険表現となりうる表現が存在するかどうかを検出する危険表現検出フェーズの処理の流れを示すフローチャートである。
以下に示す図6の説明において電子装置という場合には、当該電子装置は、危険表現検出フェーズの処理を実施する上記第1の電子装置又は上記第2の電子装置を意味する。
ステップ601において、電子装置は、危険表現検出フェーズの処理を開始する。
ステップ602において、電子装置は、特定のテーマに依存して危険表現となりうる表現を検出する為に、分析対象のテキスト・データ(691)を受け取る。電子装置は、当該分析対象のテキスト・データを、例えば、ユーザの当該電子装置への入力(例えば、Twitter(登録商標)のツイート、若しくはFACEBOOK(登録商標)やLINE(商標)のメッセージ入力)を通じて、又は、ユーザのクライアント・コンピュータを介して、若しくは、記録媒体(例えば、CD,DVD,USBメモリ、若しくはハードディスク)を介して受け取りうる。分析対象のテキスト・データは例えば、Twitter(登録商標)のツイート、又は、FACEBOOK(登録商標)やLINE(商標)のメッセージでありうる。
ステップ603において、電子装置は、ステップ602で受け取った分析対象のテキスト・データから、特定のテーマに関連付けられたテキスト・データの部分集合を取得する。電子装置は例えば、テーマ特定辞書(692)を使用して、特定のテーマに関連付けられたテキスト・データを特定し、上記テキスト・データの部分集合を取得しうる。テーマ特定辞書(692)は、図2Aに示すテーマ特定辞書(292)と同じでありうる。
ステップ603の詳細、すなわち、特定のテーマに関連付けられたテキスト・データの部分集合を取得する処理は、上記図2Bで説明したものと同様の手法を用いて行われうる。
ステップ604において、電子装置は、ステップ603において取得したテキスト・データの部分集合(すなわち、特定のテーマに関連付けられたテキスト・データ)において、ネガティブ情報に該当する単語又はフレーズを特定する処理を実行するかどうかを判断する。危険表現検出フェーズの処理の実施においては、ステップ604を実行しなくてもよい。なぜならば、ステップ603において、特定のテーマに関連付けられたテキスト・データの部分集合が取得されているために、危険表現となりうる表現を当該取得された部分集合から検出すれば、特定のテーマに依存して危険表現となりうる表現を抽出することが可能でありうるからである。電子装置は、ネガティブ情報に該当する単語又はフレーズを特定する処理を実行することに応じて、処理をステップ605に進める。一方、電子装置は、ネガティブ情報に該当する単語又はフレーズを特定する処理を実行しないことに応じて、処理をステップ607に進める。
ステップ605において、電子装置は、表層的(文字面的)なネガティブ情報を用いてネガティブ情報を有するテキスト・データ(ネガティブ情報の文脈を有するテキスト・データ)を絞り込む為に、最初に、ステップ603において取得したテキスト・データの部分集合(すなわち、特定のテーマに関連付けられたテキスト・データ)において、ネガティブ情報に該当する単語又はフレーズを特定する。電子装置は例えば、ネガティブ情報辞書(693)を使用して、ネガティブ情報に該当する単語又はフレーズを特定しうる。ネガティブ情報辞書(693)は、図2Aに示すネガティブ情報辞書(293)と同じでありうる。
ステップ606において、電子装置は、表層的(文字面的)なネガティブ情報を用いてネガティブ情報を有するテキスト・データ(ネガティブ情報の文脈を有するテキスト・データ)に絞り込む為に、次に、ステップ603で取得した部分集合から、ステップ605において特定した単語又はフレーズを含むテキスト・データを抽出する。
ステップ607において、電子装置は、ステップ603で取得したテキスト・データの部分集合(すなわち、特定のテーマに関連付けられたテキスト・データ)又はステップ606で抽出したテキスト・データ(すなわち、特定のテーマに関連付けられたテキスト・データであって且つネガティブ情報を有するテキスト・データ)から、危険表現リスト(694)中にあり且つ特定のテーマに関連付けられた危険表現となりうる表現が存在するかどうかを検出する。
ステップ608において、電子装置は、危険表現リスト(694)中の危険表現となりうる表現が存在することを検出するかどうかを判断する。電子装置は、危険表現となりうる表現が存在することを検出することに応じて、処理をステップ609に進める。一方、電子装置は、危険表現となりうる表現が存在することを検出しないことに応じて、処理を終了ステップ610に進める。
ステップ609において、電子装置は、危険表現となりうる表現が存在することを検出したことに応じて、特定の処理を実行する。特定の処理は例えば、下記の通りであるがこれらに限定されるものでない:
・危険表現検出フェーズの処理を上記第1の電子装置が実行する場合であって、当該第1の電子装置が分析対象のテキスト・データを提供したユーザ・クライアントの電子装置である場合:
−上記分析対象のテキスト・データを当該第1の電子装置に接続されたネットワーク上に送信又はアップロードすることを中止又は中断する;
−上記分析対象のテキスト・データが上記危険表現となりうる表現を有していることを示す表示(例えば、警告表示)を画面上に表示する;若しくは、
−上記危険表現となりうる表現が存在することに応じて、上記特定のテーマと上記危険表現となりうる表現の出現数とを示す表示を画面上に表示する;又は、
・危険表現検出フェーズの処理を上記第1の電子装置が実行する場合であって、当該第1の電子装置が分析対象のテキスト・データを提供したユーザ・クライアントの電子装置に接続されているサーバ・コンピュータである場合:
−上記分析対象のテキスト・データを当該第1の電子装置に接続されたネットワーク上に送信又はアップロードすることをユーザ・クライアントの電子装置に中止又は中断させる;
−上記分析対象のテキスト・データが上記危険表現となりうる表現を有していることを示すメッセージ(例えば、警告表示)をユーザ・クライアントの電子装置の画面上に表示するように指示する;若しくは、
−上記危険表現となりうる表現が存在することに応じて、上記特定のテーマと上記危険表現となりうる表現の出現数とを示す表示をユーザ・クライアントの電子装置の画面上に表示するように指示する;
又は、
・危険表現検出フェーズの処理を上記第2の電子装置が実行する場合:
−上記分析対象のテキスト・データを当該第1の電子装置に接続されたネットワーク上に送信又はアップロードすることを中止又は中断する;
−上記分析対象のテキスト・データが上記危険表現となりうる表現を有していることを示す表示(例えば、警告表示)を画面上に表示する;若しくは、
上記危険表現となりうる表現が存在することに応じて、上記特定のテーマと上記危険表現となりうる表現の出現数とを示す表示を画面上に表示する。
ステップ610において、電子装置は、危険表現検出フェーズの処理を終了する。
図7は、本発明の実施態様に従う危険表現検出フェーズ処理において、例えばSNSの管理サーバが、特定のテーマ(震災)に依存して危険表現となりうる表現(批判となりうる表現)の書き込みを未然に防ぐサービスをSNSのユーザに対して提供する実施例を示す。
画面(701)は、SNSサイトを利用するユーザが、ユーザ・コンピュータ上でテキスト・データであるブログ書き込みメッセージ(711)を入力し、当該入力したブログ書き込みメッセージ(711)を投稿しようとしている画面を示す。上記ユーザは、画面(701)上の「投稿」ボタンをクリックしたとする。ユーザ・コンピュータは、当該クリックに応じて、上記入力されたブログ書き込みメッセージ(711)を、SNSサイトの管理サーバ(上記第2の電子装置に該当する)に送信する。
SNSサイトの管理サーバは、上記ユーザ・コンピュータから、分析対象のテキスト・データであるブログ書き込み・メッセージ(711)を受け取ったとする。当該管理サーバは、テーマ特定辞書(692)を参照し、当該ブログ書き込み・メッセージ(711)が「復興」という語を有していることから、当該ブログ書き込み・メッセージ(711)が、特定のテーマ「震災」に関連付けられているものであると判断する。当該管理サーバは、危険表現リスト(694)を参照し、ブログ書き込み・メッセージ(711)中に、特定のテーマ「震災」に関連付けられた危険表現となりうる表現が存在するかどうかを検出する。管理サーバは、ブログ書き込み・メッセージ(711)中に、特定のテーマ「震災」に関連付けられた危険表現となりうる共起表現「電池」及び「買う」が存在することを検出する。当該管理サーバは、特定のテーマ「震災」に関連付けられた危険表現となりうる共起表現が存在することを検出することに応じて、ユーザ・コンピュータ上で、ユーザに投稿するかどうかを確認するための確認画面を表示させる命令を送信する。
ユーザ・コンピュータは、上記命令を受信することに応じて、表示装置上に確認画面(721)を表示する。確認画面(721)は、警告メッセージ(731)、危険表現となりうる表現(732)、特定のテーマ(733)、及びブログ書き込み・メッセージ(734)を有する。警告メッセージ(731)は、ユーザに対して、ブログ書き込み・メッセージ(711)が投稿されることによって生じる問題をユーザに伝えるためのメッセージでありうる。危険表現となりうる表現(732)は、ブログ書き込み・メッセージ(711)中の、特定のテーマ「震災」に依存して危険表現となりうる表現を示す。特定のテーマ(733)は、ブログ書き込み・メッセージ(711)のテーマを示す。ブログ書き込み・メッセージ(734)は、ユーザによって入力されたブログ書き込み・メッセージ(711)に対応し、当該メッセージ中(734)において、危険表現となりうる表現(732)が強調表示(例えば、斜体、色付け、強調表示)されている。
ユーザは、上記確認画面(721)中の警告メッセージ(731)を参照し、投稿を継続するか(ボタン「OK」)、投稿内容を変更するか(ボタン「再編集」)、又は投稿をキャンセルするか(ボタン「キャンセル」)を選択しうる。
上記のようにして、上記管理サーバは、ブログ書き込み・メッセージ(711)中に特定のテーマ「震災」に依存して危険表現となりうる表現「電池」及び「買う」があることを、ユーザに知らせることが可能になる。従って、上記管理サーバは、特定のテーマ「震災」に依存して、批判となりうる書き込みを未然に防ぐサービスをユーザに対して提供することが可能になる。
図8は、本発明の実施態様に従う危険表現検出フェーズ処理において、例えば情報の発信者が、特定のテーマ(震災)に依存して危険表現となりうる表現(批判となりうる表現)の書き込みを予め認識する実施例を示す。
画面(801)は、ユーザが、ユーザ・コンピュータ上でテキスト・データであるマイクロ・ブログ書き込みメッセージ(811)を入力し、当該入力したマイクロ・ブログ書き込みメッセージ(811)を投稿しようとしている画面を示す。上記ユーザは、画面(801)上の「投稿」ボタンをクリックしたとする。
ユーザ・コンピュータは、特定の期間情報を参照し、当該マイクロ・ブログ書き込み・メッセージ(811)が「作成日時:2011年3月20日」という語を有している又は当該マイクロ・ブログ書き込み・メッセージ(811)に関連付けられている(例えば、当該マイクロ・ブログ書き込み・メッセージ(811)中に、「作成日時:2011年3月20日」という語が属性値として埋め込まれている)ことから、当該ブログ書き込み・メッセージ(811)が、特定のテーマ「震災」に関連付けられているものであると判断する。当該ユーザ・コンピュータは、危険表現リスト(694)を参照し、マイクロ・ブログ書き込み・メッセージ(811)中に、特定のテーマ「震災」に関連付けられた危険表現となりうる表現が存在するかどうかを検出する。当該ユーザ・コンピュータは、マイクロ・ブログ書き込み・メッセージ(811)中に、特定のテーマ「震災」に関連付けられた危険表現となりうる共起表現「水」及び「買う」が存在することを検出する。
上記ユーザ・コンピュータは、特定のテーマ「震災」に関連付けられた危険表現となりうる共起表現が存在することを検出することに応じて、ユーザに投稿するかどうかを確認するための確認画面(821)を表示装置上に表示する。確認画面(821)は、警告メッセージ(831)、危険表現となりうる表現(832)、特定のテーマ(833)、及びマイクロ・ブログ書き込み・メッセージ(834)を有する。警告メッセージ(831)は、ユーザに対して、マイクロ・ブログ書き込み・メッセージ(811)が投稿されることによって生じる問題をユーザに伝えるためのメッセージでありうる。危険表現となりうる表現(832)は、マイクロ・ブログ書き込み・メッセージ(811)中の、特定のテーマ「震災」に依存して危険表現となりうる表現を示す。特定のテーマ(833)は、マイクロ・ブログ書き込み・メッセージ(811)のテーマを示す。ブログ書き込み・メッセージ(834)は、ユーザによって入力されたマイクロ・ブログ書き込み・メッセージ(811)に対応し、当該メッセージ中(834)において、危険表現となりうる表現(832)が強調表示(例えば、斜体、色付け、強調表示)されている。
ユーザは、上記確認画面(821)中の警告メッセージ(831)を参照し、投稿を継続するか(ボタン「OK」)、投稿内容を変更するか(ボタン「再編集」)、又は投稿をキャンセルするか(ボタン「キャンセル」)を選択しうる。
上記のようにして、ユーザ・コンピュータは、マイクロ・ブログ書き込み・メッセージ(811)中に特定のテーマ「震災」に依存して危険表現となりうる表現「水」及び「買う」があることを、ユーザに知らせることが可能になる。従って、ユーザは、特定のテーマ「震災」に依存して、批判となりうる書き込みを予め認識することが可能になる。
図9は、本発明の実施態様に従う危険表現検出フェーズ処理において、例えばSNSの管理サーバが、特定のテーマ、当該特定のテーマに依存して危険表現となりうる表現、及び当該危険表現となりうる表現の出現回数を示す実施例を示す。
SNSの管理サーバは、傾向分析のツールとして使用する為に、特定のテーマ(911、921、931)、及び当該特定のテーマ(911、921、931)それぞれに依存して危険表現となりうる表現(912、922、932)、及び任意的に、当該危険表現となりうる表現(912、922、932)それぞれの出現回数(913、923、933)を画面(901)上に提示する。SNSの管理者は、上記画面(901)を参照し、上記特定のテーマ(911、921、931)、上記危険表現となりうる表現(912、922、932)、及び出現回数(913、923、933)を見ることによって、どの文脈でどの程度の数の危険表現となりうる表現が出ているかを調べることが可能になる。
図10は、図1に従うハードウェア構成を好ましくは備えており、本発明の実施態様に従う危険表現学習フェーズ処理、及び任意的に本発明の実施態様に従う危険表現検出フェーズ処理を実行する第1の電子装置(1001)の機能ブロック図の一例を示した図である。
第1の電子装置(1001)は、第1の部分集合取得手段(1011)、第1のテキスト・データ抽出手段(1012)、及び第1の危険表現抽出手段(1013)、並びに任意的に、第2の部分集合取得手段(1021)、第2のテキスト・データ抽出手段(1022)、第2の危険表現抽出手段(1023)、及び特定処理実行手段(1024)を備えている。
第1の部分集合取得手段(1011)は、危険表現学習フェーズにおいて、学習用のテキスト・データから、上記特定のテーマ及び任意的に特定の期間情報に関連付けられたテキスト・データの部分集合を取得する。
第1の部分集合取得手段(1011)は、図2Aに示すステップ202及び203、並びに、図2Bに示す各ステップを実行しうる。
第1のテキスト・データ抽出手段(1012)は、危険表現学習フェーズにおいて、第1の部分集合取得手段(1011)が取得した部分集合から、ネガティブ情報を有するテキスト・データを抽出する。
第1のテキスト・データ抽出手段(1012)は、図2Aに示すステップ204及び205を実行しうる。
第1の危険表現抽出手段(1013)は、危険表現学習フェーズにおいて、第1のテキスト・データ抽出手段(1012)が抽出したテキスト・データから、(1)当該抽出されたテキスト・データに相関が高い単語若しくはフレーズを、又は、(2)当該抽出されたテキスト・データ中の出現頻度の高い単語若しくはフレーズを、上記特定のテーマに依存して危険表現となりうる表現として抽出する。
第1の危険表現抽出手段(1013)は、図2Aに示すステップ206及び207を実行しうる。
第2の部分集合取得手段(1021)は、危険表現検出フェーズにおいて、分析対象のテキスト・データから、上記特定のテーマに関連付けられたテキスト・データの部分集合を取得する。なお、第1の部分集合取得手段(1011)が、第2の部分集合取得手段(1021)の機能を包含していてもよい。
第2の部分集合取得手段(1021)は、図6に示すステップ602及び603を実行しうる。
第2のテキスト・データ抽出手段(1022)は、危険表現検出フェーズにおいて、第2の部分集合取得手段(1021)が取得した部分集合から、ネガティブ情報を有するテキスト・データを抽出する。なお、第1のテキスト・データ抽出手段(1012)が、第2のテキスト・データ抽出手段(1022)の機能を包含していてもよい。
第2のテキスト・データ抽出手段(1022)は、図6に示すステップ604、605及び606を実行しうる。
第2の危険表現抽出手段(1023)は、危険表現検出フェーズにおいて、第2の部分集合取得手段(1021)が取得したテキスト・データの部分集合において、又は、第2のテキスト・データ抽出手段(1022)が抽出したテキスト・データにおいて、第1の危険表現抽出手段(1013)が抽出した危険表現となりうる表現が存在することを検出する。なお、第1の危険表現抽出手段(1013)が、第2の危険表現抽出手段(1023)の機能を包含していてもよい。
第2の危険表現抽出手段(1023)は、図6に示すステップ607及び608を実行しうる。
特定処理実行手段(1024)は、上記危険表現となりうる表現が存在することに応じて、下記に示す処理のうちの少なくとも1つを実行しうる:
上記分析対象のテキスト・データをネットワーク上に送信又はアップロードすることを中止又は中断すること;
上記分析対象のテキスト・データが上記危険表現を有していることを示す表示を画面上に表示すること;
上記分析対象のテキスト・データが上記危険表現を有していることを示すメッセージを上記分析対象のテキストを提供したユーザの電子装置に送信すること;及び
上記特定のテーマと上記危険表現となりうる表現の出現数とを示す表示を画面上に表示すること。
特定処理実行手段(1024)は、図6に示すステップ609を実行しうる。
図11は、図1に従うハードウェア構成を好ましくは備えており、本発明の実施態様に従う危険表現検出フェーズ処理を実行する第2の電子装置(1101)の機能ブロック図の一例を示した図である。
第2の電子装置(1101)は、第2の部分集合取得手段(1121)、第2のテキスト・データ抽出手段(1122)、第2の危険表現抽出手段(1123)、及び特定処理実行手段(1124)を備えている。
第2の部分集合取得手段(1121)は、危険表現検出フェーズにおいて、分析対象のテキスト・データから、上記特定のテーマに関連付けられたテキスト・データの部分集合を取得する。
第2の部分集合取得手段(1121)は、図6に示すステップ602及び603を実行しうる。
第2のテキスト・データ抽出手段(1122)は、危険表現検出フェーズにおいて、第2の部分集合取得手段(1021)が取得した部分集合から、ネガティブ情報を有するテキスト・データを抽出する。
第2のテキスト・データ抽出手段(1122)は、図6に示すステップ604、605及び606を実行しうる。
第2の危険表現抽出手段(1123)は、危険表現検出フェーズにおいて、第2の部分集合取得手段(1021)が取得したテキスト・データの部分集合において、又は、第2のテキスト・データ抽出手段(1022)が抽出したテキスト・データにおいて、第1の危険表現抽出手段(1013)が抽出した危険表現となりうる表現が存在することを検出する。
第2の危険表現抽出手段(1123)は、図6に示すステップ607及び608を実行しうる。
特定処理実行手段(1124)は、上記危険表現となりうる表現が存在することに応じて、下記に示す処理のうちの少なくとも1つを実行しうる:
上記分析対象のテキスト・データをネットワーク上に送信又はアップロードすることを中止又は中断すること;
上記分析対象のテキスト・データが上記危険表現を有していることを示す表示を画面上に表示すること;
上記分析対象のテキスト・データが上記危険表現を有していることを示すメッセージを上記分析対象のテキストを提供したユーザの電子装置に送信すること;及び
上記特定のテーマと上記危険表現となりうる表現の出現数とを示す表示を画面上に表示すること。
特定処理実行手段(1124)は、図6に示すステップ609を実行しうる。

Claims (20)

  1. 特定のテーマに依存して危険表現となりうる表現を検出する方法であって、電子装置が、
    学習用のテキスト・データから、前記特定のテーマ及び任意的に特定の期間情報に関連付けられたテキスト・データの部分集合を取得するステップと、
    前記取得した部分集合から、ネガティブ情報を有するテキスト・データを抽出するステップと、
    前記抽出されたテキスト・データから、(1)当該抽出されたテキスト・データに相関が高い単語若しくはフレーズを、又は、(2)当該抽出されたテキスト・データ中の出現頻度の高い単語若しくはフレーズを、前記特定のテーマに依存して危険表現となりうる表現として抽出するステップ
    を実行することを含む、前記方法。
  2. 前記電子装置が第1の電子装置であり、
    前記第1の電子装置又は前記第1の電子装置と異なる第2の電子装置が、
    分析対象のテキスト・データから、前記特定のテーマに関連付けられたテキスト・データの部分集合を取得するステップと、
    前記分析対象のテキスト・データから取得した前記部分集合において、前記危険表現となりうる表現が存在することを検出するステップと
    を実行することを含む、請求項1に記載の方法。
  3. 前記第1の電子装置又は前記第2の電子装置が、
    前記分析対象のテキスト・データから取得した前記部分集合から、ネガティブ情報を有するテキスト・データを抽出するステップ
    をさらに実行することを含み、
    前記分析対象のテキスト・データから取得した前記部分集合において、前記危険表現となりうる表現が存在することを検出するステップが、
    前記分析対象のテキスト・データからの前記抽出したテキスト・データにおいて、前記危険表現となりうる表現が存在することを検出するステップ
    を含む、
    請求項2に記載の方法。
  4. 前記第1の電子装置又は前記第2の電子装置が、
    前記危険表現となりうる表現が存在することに応じて、前記分析対象のテキスト・データをネットワーク上に送信又はアップロードすることを中止又は中断するステップ、
    前記危険表現となりうる表現が存在することに応じて、前記分析対象のテキスト・データが前記危険表現となりうる表現を有していることを示す表示を画面上に表示するステップ、
    前記危険表現となりうる表現が存在することに応じて、前記分析対象のテキスト・データが前記危険表現となりうる表現を有していることを示すメッセージを前記分析対象のテキストを提供したユーザの電子装置に送信するステップ、
    前記危険表現となりうる表現が存在することに応じて、前記特定のテーマと前記危険表現となりうる表現の出現数とを示す表示を画面上に表示するステップ
    のうちの少なくとも1つをさらに実行することを含む、請求項2に記載の方法。
  5. 前記危険表現となりうる表現が存在することを検出するステップが、
    前記特定のテーマをさらに抽出するステップ
    をさらに含む、請求項1に記載の方法。
  6. 前記危険表現となりうる表現が共起表現を含む、請求項1に記載の方法。
  7. 前記ネガティブ情報を有するテキスト・データを抽出するステップが、
    前記取得した部分集合において、前記ネガティブ情報に該当する単語若しくはフレーズを特定するステップと、
    前記特定された単語若しくはフレーズを有するテキスト・データを抽出するステップと
    を含む、請求項1に記載の方法。
  8. 前記ネガティブ情報に該当する単語若しくはフレーズを特定するステップが、
    ネガティブ情報であることを判定可能な単語若しくはフレーズを含むネガティブ情報辞書を用いて行われる、請求項7に記載の方法。
  9. 前記ネガティブ情報を有するテキスト・データを抽出するステップが、
    前記取得した部分集合から、学習済みの機械学習モデルを用いて、前記ネガティブ情報に該当する単語若しくはフレーズを有するテキスト・データを抽出するステップ
    を含む、請求項1に記載の方法。
  10. 前記テキスト・データの部分集合を取得するステップが、
    特定のテーマの為に用いられる単語若しくはフレーズを含むテーマ特定辞書を用いて、前記特定のテーマに関連付けられたテキスト・データを特定するステップ
    を含む、請求項1に記載の方法。
  11. 前記テキスト・データの部分集合を取得するステップが、
    前記学習用のテキスト・データ中に存在し且つ前記テーマ特定辞書に含まれる単語若しくはフレーズの前後の所定の文字数若しくは所定の単語数にある範囲を、又は、
    前記テーマ特定辞書に含まれる単語若しくはフレーズを含むテキスト・データを有する同一の文、同一の段落、同一の項目若しくは同一の文書を
    前記特定のテーマに関連付けられたテキスト・データとして特定するステップ
    を含む、請求項10に記載の方法。
  12. 前記テキスト・データの部分集合を取得するステップが、
    前記学習用のテキスト・データから、学習済みの学習モデルを用いて、前記特定のテーマに関連付けられたテキスト・データを特定するステップ
    を含む、請求項1に記載の方法。
  13. 前記テキスト・データの部分集合を取得するステップが、
    (1)特定のテーマの為に用いられる単語若しくはフレーズを含むテーマ特定辞書を用いて、前記特定のテーマに関連付けられたテキスト・データを特定するステップ、
    (2)前記学習用のテキスト・データから、学習済みの学習モデルを用いて、前記特定のテーマに関連付けられたテキスト・データを特定するステップ、及び、
    (3)特定の期間情報に関連付けられたテキスト・データを特定するステップ
    のうちの少なくとも2つのステップにおいて特定されたテキスト・データの集合演算をして、前記特定のテーマに関連付けられたテキスト・データの部分集合を取得するステップ
    を含む、請求項1に記載の方法。
  14. 前記テキスト・データの部分集合を取得するステップが、
    前記特定のテーマに関連付けられたテキスト・データと前記特定の期間情報に関連付けられたテキスト・データについて集合演算をして、前記特定のテーマに関連付けられたテキスト・データの部分集合を取得するステップ
    を含む、請求項1に記載の方法。
  15. 特定のテーマに依存して危険表現となりうる表現を検出するための電子装置であって、
    学習用のテキスト・データから、前記特定のテーマ及び任意的に特定の期間情報に関連付けられたテキスト・データの部分集合を取得する部分集合取得手段と、
    前記部分集合取得手段が取得した部分集合から、ネガティブ情報を有するテキスト・データを抽出するテキスト・データ抽出手段と、
    前記テキスト・データ抽出手段が抽出した前記テキスト・データから、(1)前記テキスト・データ抽出手段が抽出したテキスト・データに相関が高い単語若しくはフレーズを、又は、(2)前記テキスト・データ抽出手段が抽出した前記テキスト・データ中の出現頻度の高い単語若しくはフレーズを、前記特定のテーマに依存して危険表現となりうる表現として抽出する危険表現抽出手段と
    を備えている、前記電子装置。
  16. 前記部分集合取得手段がさらに、分析対象のテキスト・データから、前記特定のテーマに関連付けられたテキスト・データの部分集合を取得し、
    前記危険表現抽出手段がさらに、前記部分集合取得手段が前記分析対象のテキスト・データから取得した前記部分集合において、前記危険表現となりうる表現が存在することを検出する、
    請求項15に記載の電子装置。
  17. 前記テキスト・データ取得手段がさらに、前記部分集合取得手段が前記分析対象のテキスト・データから取得した前記部分集合において、ネガティブ情報を有するテキスト・データを抽出し、
    前記危険表現抽出手段がさらに、前記テキスト・データ取得手段が抽出した前記分析対象のテキスト・データからのテキスト・データにおいて、前記危険表現となりうる表現が存在することを検出する、
    請求項16に記載の電子装置。
  18. 特定のテーマに依存して危険表現となりうる表現を検出するための電子装置システムであって、
    第1の電子装置と、
    第2の電子装置と
    を備えており、
    前記第1の電子装置が、
    学習用のテキスト・データから、前記特定のテーマ及び任意的に特定の期間情報に関連付けられたテキスト・データの部分集合を取得する第1の部分集合取得手段と、
    前記取得した部分集合から、ネガティブ情報を有するテキスト・データを抽出する第1のテキスト・データ抽出手段と、
    前記抽出されたテキスト・データから、(1)当該抽出されたテキスト・データに相関が高い単語若しくはフレーズを、又は、(2)当該抽出されたテキスト・データ中の出現頻度の高い単語若しくはフレーズを、前記特定のテーマに依存して危険表現となりうる表現として抽出する第1の危険表現抽出手段と
    を備えており、
    前記第2の電子装置が、
    分析対象のテキスト・データから、前記特定のテーマに関連付けられたテキスト・データの部分集合を取得する第2の部分集合取得手段と、
    前記取得した前記部分集合において、前記第1の危険表現抽出手段が抽出した危険表現となりうる表現が存在することを検出する第2の危険表現検出手段と
    を備えている、前記電子装置システム。
  19. 前記第2の電子装置が、
    前記第2の部分集合取得手段が取得した前記部分集合から、ネガティブ情報を有するテキスト・データを抽出する第2のテキスト・データ取得手段
    をさらに備えており、
    前記第2の危険表現検出手段が、
    前記第2のテキスト・データ取得手段が抽出したテキスト・データにおいて、前記危険表現となりうる表現が存在することを検出する、
    請求項18に記載の前記電子装置システム。
  20. 特定のテーマに依存して危険表現となりうる表現を検出するための電子装置用プログラムであって、電子装置に、請求項1及び5〜14のいずれか一項に記載の方法の各ステップを実行させる、前記電子装置用プログラム。
JP2013208264A 2013-10-03 2013-10-03 特定のテーマに依存して危険表現となりうる表現を検出する方法、並びに、当該表現を検出するための電子装置及びその電子装置用プログラム Active JP5930217B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2013208264A JP5930217B2 (ja) 2013-10-03 2013-10-03 特定のテーマに依存して危険表現となりうる表現を検出する方法、並びに、当該表現を検出するための電子装置及びその電子装置用プログラム
US14/460,443 US9575959B2 (en) 2013-10-03 2014-08-15 Detecting dangerous expressions based on a theme
US15/375,563 US10275447B2 (en) 2013-10-03 2016-12-12 Detecting dangerous expressions based on a theme
US16/248,995 US11010552B2 (en) 2013-10-03 2019-01-16 Detecting expressions learned based on a theme and on word correlation and co-occurence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013208264A JP5930217B2 (ja) 2013-10-03 2013-10-03 特定のテーマに依存して危険表現となりうる表現を検出する方法、並びに、当該表現を検出するための電子装置及びその電子装置用プログラム

Publications (2)

Publication Number Publication Date
JP2015072614A true JP2015072614A (ja) 2015-04-16
JP5930217B2 JP5930217B2 (ja) 2016-06-08

Family

ID=52777640

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013208264A Active JP5930217B2 (ja) 2013-10-03 2013-10-03 特定のテーマに依存して危険表現となりうる表現を検出する方法、並びに、当該表現を検出するための電子装置及びその電子装置用プログラム

Country Status (2)

Country Link
US (3) US9575959B2 (ja)
JP (1) JP5930217B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019028937A (ja) * 2017-08-03 2019-02-21 株式会社 資生堂 説明文評価方法、説明文評価装置及び説明文評価プログラム
JP2019091450A (ja) * 2017-11-14 2019-06-13 ネイバー コーポレーションNAVER Corporation ユーザ−入力コンテンツと連関するリアルタイムフィードバック情報提供方法およびシステム
WO2024089859A1 (ja) * 2022-10-27 2024-05-02 日本電信電話株式会社 収集装置、収集方法、および、収集プログラム
WO2024089860A1 (ja) * 2022-10-27 2024-05-02 日本電信電話株式会社 分類装置、分類方法、および、分類プログラム
JP7539756B2 (ja) 2020-07-05 2024-08-26 修 濱田 コミュニケーション言語のリスク判定システム及びリスク判定方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5930217B2 (ja) 2013-10-03 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 特定のテーマに依存して危険表現となりうる表現を検出する方法、並びに、当該表現を検出するための電子装置及びその電子装置用プログラム
CN106415531A (zh) * 2014-04-28 2017-02-15 谷歌公司 用于输入法编辑器的特定于场境的语言模型
US10489509B2 (en) * 2016-03-14 2019-11-26 International Business Machines Corporation Personality based sentiment analysis of textual information written in natural language
EP3507723A4 (en) 2016-09-02 2020-04-01 FutureVault Inc. SYSTEMS AND METHODS FOR SHARING DOCUMENTS
SG11201901778YA (en) 2016-09-02 2019-03-28 Futurevault Inc Automated document filing and processing methods and systems
CN106778862B (zh) * 2016-12-12 2020-04-21 上海智臻智能网络科技股份有限公司 一种信息分类方法及装置
CN109388696B (zh) * 2018-09-30 2021-07-23 北京字节跳动网络技术有限公司 删除谣言文章的方法、装置、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0477857A (ja) * 1990-07-13 1992-03-11 Nippon Telegr & Teleph Corp <Ntt> 不適切表現検出装置
JP2008191911A (ja) * 2007-02-05 2008-08-21 Sharp Corp 電子機器、不適切語句判定方法、プログラム、及び、記録媒体

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5013065B1 (ja) 1970-07-02 1975-05-16
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US20030101166A1 (en) 2001-11-26 2003-05-29 Fujitsu Limited Information analyzing method and system
US7444403B1 (en) * 2003-11-25 2008-10-28 Microsoft Corporation Detecting sexually predatory content in an electronic communication
US20050289148A1 (en) * 2004-06-10 2005-12-29 Steven Dorner Method and apparatus for detecting suspicious, deceptive, and dangerous links in electronic messages
JP4148522B2 (ja) * 2004-11-19 2008-09-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 表現検出システム、表現検出方法、及びプログラム
US7853445B2 (en) * 2004-12-10 2010-12-14 Deception Discovery Technologies LLC Method and system for the automatic recognition of deceptive language
US20070067291A1 (en) * 2005-09-19 2007-03-22 Kolo Brian A System and method for negative entity extraction technique
US20080133221A1 (en) * 2006-05-17 2008-06-05 Smith Sharon S Threat assessment based on written communication
US7756843B1 (en) * 2006-05-25 2010-07-13 Juniper Networks, Inc. Identifying and processing confidential information on network endpoints
JP4242892B2 (ja) 2006-12-22 2009-03-25 株式会社メディア・マジック 電子掲示板監視システムおよび電子掲示板監視プログラム
JP5013065B2 (ja) 2006-12-27 2012-08-29 日本電気株式会社 風説監視システム、風説監視方法及びプログラム
JP4911599B2 (ja) 2006-12-28 2012-04-04 独立行政法人情報通信研究機構 風評情報抽出装置及び風評情報抽出方法
JP5168961B2 (ja) 2007-03-19 2013-03-27 富士通株式会社 最新評判情報通知プログラム、記録媒体、装置及び方法
GB0709574D0 (en) * 2007-05-18 2007-06-27 Aurix Ltd Speech Screening
US20090089417A1 (en) * 2007-09-28 2009-04-02 David Lee Giffin Dialogue analyzer configured to identify predatory behavior
US20090157747A1 (en) * 2007-12-13 2009-06-18 International Business Machines Corporation Administering A Digital Media File Having One Or More Potentially Offensive Portions
JP2009015866A (ja) 2008-09-22 2009-01-22 Media Magic Co Ltd 電子掲示板監視システムおよび電子掲示板監視プログラム
WO2010053437A1 (en) * 2008-11-04 2010-05-14 Saplo Ab Method and system for analyzing text
JP5464543B2 (ja) 2009-03-30 2014-04-09 太平洋セメント株式会社 浮遊選鉱処理方法
US8234259B2 (en) * 2009-05-08 2012-07-31 Raytheon Company Method and system for adjudicating text against a defined policy
WO2011085108A1 (en) * 2010-01-07 2011-07-14 The Trustees Of The Stevens Institute Of Technology Psycho - linguistic statistical deception detection from text content
US9292493B2 (en) * 2010-01-07 2016-03-22 The Trustees Of The Stevens Institute Of Technology Systems and methods for automatically detecting deception in human communications expressed in digital form
US8296130B2 (en) * 2010-01-29 2012-10-23 Ipar, Llc Systems and methods for word offensiveness detection and processing using weighted dictionaries and normalization
US8510098B2 (en) * 2010-01-29 2013-08-13 Ipar, Llc Systems and methods for word offensiveness processing using aggregated offensive word filters
US8359362B2 (en) * 2010-06-28 2013-01-22 Bank Of America Corporation Analyzing news content information
US9330085B2 (en) * 2010-12-15 2016-05-03 International Business Machines Corporation Assisting users to generate desired meme in document
US20130110748A1 (en) * 2011-08-30 2013-05-02 Google Inc. Policy Violation Checker
WO2013059487A1 (en) * 2011-10-19 2013-04-25 Cornell University System and methods for automatically detecting deceptive content
US8463595B1 (en) * 2012-03-06 2013-06-11 Reputation.Com, Inc. Detailed sentiment analysis
US20140074842A1 (en) * 2012-09-12 2014-03-13 Lior Tal Computer Method and System for Detecting the Subject Matter of Online Communications
US9355172B2 (en) * 2013-01-10 2016-05-31 Accenture Global Services Limited Data trend analysis
US10303762B2 (en) * 2013-03-15 2019-05-28 Disney Enterprises, Inc. Comprehensive safety schema for ensuring appropriateness of language in online chat
US9230101B2 (en) * 2013-03-15 2016-01-05 Pinkerton Consulting And Investigations, Inc. Providing alerts based on unstructured information methods and apparatus
US9215243B2 (en) * 2013-09-30 2015-12-15 Globalfoundries Inc. Identifying and ranking pirated media content
JP5930217B2 (ja) 2013-10-03 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 特定のテーマに依存して危険表現となりうる表現を検出する方法、並びに、当該表現を検出するための電子装置及びその電子装置用プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0477857A (ja) * 1990-07-13 1992-03-11 Nippon Telegr & Teleph Corp <Ntt> 不適切表現検出装置
JP2008191911A (ja) * 2007-02-05 2008-08-21 Sharp Corp 電子機器、不適切語句判定方法、プログラム、及び、記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019028937A (ja) * 2017-08-03 2019-02-21 株式会社 資生堂 説明文評価方法、説明文評価装置及び説明文評価プログラム
JP2019091450A (ja) * 2017-11-14 2019-06-13 ネイバー コーポレーションNAVER Corporation ユーザ−入力コンテンツと連関するリアルタイムフィードバック情報提供方法およびシステム
JP7539756B2 (ja) 2020-07-05 2024-08-26 修 濱田 コミュニケーション言語のリスク判定システム及びリスク判定方法
WO2024089859A1 (ja) * 2022-10-27 2024-05-02 日本電信電話株式会社 収集装置、収集方法、および、収集プログラム
WO2024089860A1 (ja) * 2022-10-27 2024-05-02 日本電信電話株式会社 分類装置、分類方法、および、分類プログラム

Also Published As

Publication number Publication date
US20170091172A1 (en) 2017-03-30
US9575959B2 (en) 2017-02-21
US20150100306A1 (en) 2015-04-09
US10275447B2 (en) 2019-04-30
US11010552B2 (en) 2021-05-18
JP5930217B2 (ja) 2016-06-08
US20190147040A1 (en) 2019-05-16

Similar Documents

Publication Publication Date Title
JP5930217B2 (ja) 特定のテーマに依存して危険表現となりうる表現を検出する方法、並びに、当該表現を検出するための電子装置及びその電子装置用プログラム
US11429779B2 (en) Method and system for intelligently suggesting paraphrases
US10928996B2 (en) Systems, devices and methods for electronic determination and communication of location information
US10778618B2 (en) Method and system for classifying man vs. machine generated e-mail
US20180197088A1 (en) Discovery, characterization, and analysis of interpersonal relationships extracted from unstructed text data
US9483462B2 (en) Generating training data for disambiguation
US9268747B2 (en) Method for detecting negative opinions in social media, computer program product and computer
US10757053B2 (en) High confidence digital content treatment
US9152625B2 (en) Microblog summarization
US11418463B2 (en) Method and system of intelligently providing responses for a user in the user&#39;s absence
CN108604152A (zh) 未读消息提示方法和终端
CN106528835A (zh) 信息获取方法和装置
US9336187B2 (en) Mediation computing device and associated method for generating semantic tags
US20180248830A1 (en) Methods for generating message notifications
EP4070257A1 (en) Method and system for intelligently detecting and modifying unoriginal content
US9971762B2 (en) System and method for detecting meaningless lexical units in a text of a message
US8620918B1 (en) Contextual text interpretation
US11397846B1 (en) Intelligent identification and modification of references in content
Skanda et al. Detecting stance in kannada social media code-mixed text using sentence embedding
WO2023014456A1 (en) System and method for providing an intelligent learning experience
US20230259713A1 (en) Automatic tone detection and suggestion
JP2015169969A (ja) 話題特定装置、および話題特定方法
JP2011215729A (ja) サーバ装置、情報管理システムおよびプログラム
US20130007010A1 (en) Requirements extraction from external sources for software lifecycle management
Tan et al. A novel ontological technique for sentiment analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160112

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20160112

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160309

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160401

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20160401

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160419

R150 Certificate of patent or registration of utility model

Ref document number: 5930217

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150