JP7231682B2

JP7231682B2 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP7231682B2
Application number: JP2021140147A
Authority: JP
Inventors: 隼人小林; 一真村尾; 毅司増山; 義宗田渕; 雅志沼田; 正幸仲辻; 拓実後藤
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2018-02-19
Filing date: 2021-08-30
Publication date: 2023-03-01
Anticipated expiration: 2038-02-19
Also published as: JP2019144722A; JP6937707B2; JP2021193582A

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。

従来、各種コンテンツをユーザに提供する際に、第三者により投稿されたコンテンツに対する意見、感想等を示すコメントを、コンテンツに合わせて提供するサービスが行われている（例えば、特許文献１参照）。

特開２０１４－４９０９４号公報

上記のような第三者により投稿されたコメントには、特定の人物に対する誹謗、中傷といった、一般に公開されることが適切でない内容が含まれる場合がある。このような特定の人物を誹謗、中傷するコメントは、公開されるべきものではなく、速やかに削除することが好ましい。このため、コンテンツの提供者は、このような不適切なコメントが含まれていないかを人手により監視し、削除する場合があった。

また、不適切な単語や表現が予め定義された固定のモデルを用いて、不適切なコメントを自動的に検知する方法が行われている。しかしながら、不適切なコメントに利用される表現は多様化、複雑化しており、単純なモデルでは検知できないものも多く存在している。例えば、ポジティブなコメント表現の一部に不適切な表現が組み込まれている場合や、隠語等により不適切な表現がなされている場合は、上記のようなモデルでは検知できない場合があった。また、このような不適切なコメントに利用される表現は次々と生み出されるものであるため、人手によりこれらすべてを監視することは容易ではなく、また、固定のモデルを用いた方法では対応が遅れてしまう場合があった。

本発明は、このような事情を考慮してなされたものであり、不適切コメントの検知を迅速且つ高精度で行うことが可能な情報処理装置、情報処理方法、およびプログラムを提供することを目的の一つとする。

本発明の一態様は、第１コンテンツに対して投稿されたコメントである第２コンテンツを閲覧したユーザによる、前記第２コンテンツが不適切であることを示し且つ前記第２コンテンツ内における不適切な表現の前記ユーザによる指定を含む報告を受け付ける受付部と、前記受付部により受け付けられた前記報告に基づいて、前記第２コンテンツが不適切であるか否かを判定する第１判定部と、を備え、前記第１判定部は、前記受付部により受け付けられた前記報告の件数が閾値以上である場合、前記第２コンテンツが不適切であると判定し、前記受付部は、前記第２コンテンツ内における不適切な内容の種類の前記ユーザによる指定をさらに含む前記報告を受け付け、前記第１判定部は、前記ユーザにより指定された前記第２コンテンツ内における不適切な表現および前記不適切な内容の種類に基づいて、前記第２コンテンツが不適切であるか否かを判定する、情報処理装置である。

本発明の一態様は、このような事情を考慮してなされたものであり、不適切コメントの検知を迅速且つ高精度で行うことが可能である。

実施形態におけるサービス提供装置１の利用環境を示す図である。実施形態における第２判定部２５によって行われる判定処理の一例を説明する図である。実施形態におけるサービス提供装置１により生成されるニュースページＰ１の一例を示す図である。実施形態におけるサービス提供装置１により生成される報告ページＰ２の一例を示す図である。実施形態における報告情報記憶部２８に記憶された報告情報２８Ａの一例を示す図である。実施形態におけるサービス提供装置１による不適切コメントの第１判定処理の流れを示すフローチャートである。実施形態におけるコンテンツ情報記憶部２６に記憶されたコメント情報２６Ｂの一例を示す図である。実施形態におけるユーザ情報記憶部３０に記憶されたユーザ情報３０Ａの一例を示す図である。実施形態におけるコンテンツ情報記憶部２６に記憶されたコメント情報２６Ｂの一例を示す図である。実施形態における学習データの一例を示す図である。実施形態におけるサービス提供装置１による不適切コメントの第２判定処理の流れを示すフローチャートである。実施形態におけるサービス提供装置１によるニュースページの生成処理の流れを示すフローチャートである。実施形態におけるサービス提供装置１により生成されるニュースページＰ１の一例を示す図である。

以下、図面を参照し、本発明の情報処理装置、情報処理方法、およびプログラムの実施形態について説明する。情報処理装置は、一以上のプロセッサ（コンピュータ）により実現される。情報処理装置は、コンテンツに対するコメントを閲覧したユーザにより報告された内容に基づいて、このコメントが不適切なコメントであるか否かを判定する。情報処理装置は、このコメントが不適切なコメントであると判定した場合、このコメントの掲載順位を下げるか、あるいは掲載対象から除外する。

図１は、サービス提供装置１（情報処理装置）の利用環境を示す図である。サービス提供装置１は、ネットワークNWを介して、一以上の端末装置Ｔと接続され、このネットワークＮＷを介して互いに通信する。ネットワークＮＷは、例えば、ＷＡＮ（Wide Area Network）やＬＡＮ（Local Area Network）、インターネット、専用回線、無線基地局、プロバイダなどを含む。

サービス提供装置１は、例えば、ウェブサーバまたはアプリサーバなどと称される。サービス提供装置１は、端末装置Ｔからの要求に応じて、ブラウザやアプリケーションプログラムによって再生されるコンテンツを提供する。

サービス提供装置１により提供されるコンテンツには、例えば、ブラウザによって参照されるウェブページの他、アプリケーションプログラムによって参照されるアプリページが含まれる。このようなウェブページまたはアプリページには、コメント投稿機能が実装された任意のページが含まれる。例えば、ウェブページには、ニュースサイト、オークションサイト、質問サイト等のページが含まれる。その他、コンテンツには、ミニブログ等のソーシャルネットワークサービス（ＳＮＳ）において投稿されたメッセージ等も含まれる。以下においては、サービス提供装置１により提供されるコンテンツが、ブラウザによって参照されるウェブページであり、このウェブページがニュースサイトのページである場合を例に挙げて説明する。

サービス提供装置１により提供されるコンテンツは、メインのコンテンツ（第１コンテンツ）と共に、第三者により投稿されたこの第１コンテンツに対する意見、感想等を示すコメントが（第２コンテンツ）とを含むものである。サービス提供装置１は、コメントを閲覧したユーザにより報告された内容に基づいて、そのコメントが、特定の人物に対する誹謗、中傷といった一般に公開されることが適切でない内容が含まれるコメント（以下、「不適切コメント」とも言う）であるか否かを判定する。サービス提供装置１は、あるコンテンツに対して行われたコメントのうち、不適切コメントの掲載順位を下げるか、あるいは削除した上で、ユーザに提供する。

端末装置Ｔは、サービス提供装置１により提供されるニュースサイトのページを閲覧するユーザによって操作される。端末装置Ｔは、例えば、パーソナルコンピュータ、スマートフォンなどの携帯電話やタブレット端末、ＰＤＡ（Personal Digital Assistant）などのコンピュータ装置である。端末装置Ｔは、ブラウザやアプリケーションプログラムなどのＵＡ（User Agent）が動作して以下の機能を実現する。端末装置Ｔは、ユーザの操作に基づいて、サービス提供装置１により提供されるニュースサイトのページを要求するリクエストを送信し、リクエストに応じたニュースサイトのページに関する情報をサービス提供装置１から受信して表示する。

［サービス提供装置の構成］
サービス提供装置１は、例えば、通信部１０（受付部）と、コンテンツ取得部１２と、順位決定部１４と、ページ生成部１６と、報告情報処理部１８（受付部）、第１判定部２０と、ラベル付与部２２と、学習部２４と、第２判定部２５と、コンテンツ情報記憶部２６と、報告情報記憶部２８と、ユーザ情報記憶部３０と、モデル記憶部３２とを備える。サービス提供装置１に含まれる各機能部は、複数の装置に分散されてもよい。例えば、第１判定部２０、ラベル付与部２２、および学習部２４と、他の機能部とは別体の装置によって実現されてもよい。また、例えば、第１判定部２０と、学習部２４とは別体の装置によって実現されてもよい。

通信部１０は、ネットワークＮＷを介して、端末装置Ｔ等と通信する。通信部１０は、例えば、ＮＩＣ等の通信インターフェースを含む。

コンテンツ取得部１２は、ユーザにより要求されたニュースページの記事情報２６Ａ（第１コンテンツ）と、この記事情報２６Ａに対して投稿された１以上のコメントを含むコメント情報２６Ｂ（第２コンテンツ）とを、コンテンツ情報記憶部２６から取得する。

順位決定部１４は、コンテンツ取得部１２により取得された１以上のコメントの掲載順位を決定する。順位決定部１４は、例えば、コメントのクリック率や、コメントに対する評価、コメントに含まれる表現等に基づいて、コメントの掲載順位を決定する。例えば、順位決定部１４は、コメントのクリック率が高い順に、コメントの掲載順位を決定する。順位決定部１４は、不適切コメントであると判定されたコメントについては、掲載順位を下げるか、あるいは掲載対象から除外するように、コメントの掲載順位を決定する。

ページ生成部１６は、コンテンツ取得部１２により取得された記事情報２６Ａと、コメント情報２６Ｂに含まれる１以上のコメントとを含むニュースページを生成し、端末装置Ｔに送信する。このニュースページ内において、コメント情報２６Ｂに含まれるコメントは、順位決定部１４により決定された掲載順位で掲載される。

また、ページ生成部１６は、ニュースページに含まれるコメントを閲覧したユーザによる不適切コメントを報告するリクエストを、通信部１０を介して受信した場合、報告内容の入力を受け付ける報告ページを生成し、端末装置Ｔに送信する。

報告情報処理部１８は、上記の報告ページに対してユーザにより入力された報告内容を取得し、報告情報記憶部２８に記憶させる。

第１判定部２０は、報告情報記憶部２８に記憶された報告情報２８Ａに基づいて、コメント情報２６Ｂに含まれるコメントの各々が不適切コメントであるか否かを判定する。

ラベル付与部２２は、第１判定部２０による判定結果に基づいて、コメント情報２６Ｂに含まれるコメントの各々に対して、不適切なコメントを示すラベル（以下、「不適切ラベル」と呼ぶ）、不適切なコメントである可能性があることを示すラベル（以下、「準不適切ラベル」と呼ぶ）、および不適切なコメントではないことを示すラベル（以下、「適切ラベル」と呼ぶ）のいずれかを付与する。このラベルが付与されたコメントが、学習部２４の学習に利用される学習データとなる。

学習部２４は、ラベル付与部２２によってラベルが付与されたデータ（コメントと、ラベルとの組）を学習データとして機械学習を行い、コメントが不適切コメントであるか否かを判定する判定モデル３２Ａを生成する。学習部２４は、生成した判定モデル３２Ａを、モデル記憶部３２に記憶させる。

第２判定部２５は、学習部２４により生成された判定モデル３２Ａを用いて、コメントが不適切コメントであるか否かを判定する。第２判定部２５は、例えば、ニュースサイトのページのコメント入力欄に対してユーザにより新たなコメントが入力されると、このコメントが不適切コメントであるか否かを判定することができる。図２は、第２判定部２５によって行われる判定処理の一例を説明する図である。第２判定部２５は、入力情報としてユーザにより入力されたコメント情報を受け取る。次に、第２判定部２５は、モデル記憶部３２に記憶された判定モデル３２Ａを用いて、入力されたコメント情報に含まれるコメントが不適切コメントであるか否かを判定する。次に、第２判定部２５は、出力情報として不適切コメントか否かに関する情報を出力する。出力情報は、例えば確率値（不適切な確率０．８等）でもよいし、正例（適切）、負例（不適切）などを示す情報であってもよい。

学習部２４および第２判定部２５は、例えば、サポートベクターマシンを用いて処理を行ってよい。また、学習部２４および第２判定部２５は、再帰型ニューラルネットワーク（Recurrent Neural Network：ＲＮＮ）多層構造のニューラルネットワーク（Deep Neural Network：ＤＮＮ）、畳み込みニューラルネットワーク（Convolutional Neural Network：ＣＮＮ）などを用いたディープラーニング技術を採用してもよい。

コンテンツ情報記憶部２６は、例えば、ニュース記事を示す記事情報２６Ａと、ニュース記事に対して投稿されたコメントを示すコメント情報２６Ｂとを記憶する。記事情報２６Ａは、ニュース記事の配信担当者等の操作に基づいて適宜更新されるか、あるいは、日次等の所定のタイミングで実施されるバッチ処理により更新されてよい。コメント情報２６Ｂは、ニュースページに対するユーザによるコメントの投稿処理に基づいて適宜更新されてよい。

報告情報記憶部２８は、例えば、報告ページにおいてユーザにより入力された報告内容を示す報告情報２８Ａを記憶する。

ユーザ情報記憶部３０は、例えば、ユーザごとの属性を示す情報を含むユーザ情報３０Ａを記憶する。モデル記憶部３２は、学習部２４により生成された判定モデル３２Ａを記憶する。

サービス提供装置１の各機能部は、例えば、ＣＰＵ（Central Processing Unit）等のハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。サービス提供装置１は、各機能部を実現するための複数のプロセッサを備えてもよい。また、これらの各機能部のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）等のハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。

サービス提供装置１の各記憶部は、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置等により実現される。サービス提供装置１の各記憶部は、単一の装置により実現されてもよい。また、サービス提供装置１の各記憶部の一部または全部は、ＮＡＳや外部のストレージサーバ等、サービス提供装置１がアクセス可能な外部装置であってもよい。

［報告情報の取得処理］
以下、サービス提供装置１の処理について説明する。まず、サービス提供装置１により実施される不適切コメントの報告情報の取得処理について説明する。図３は、サービス提供装置１により生成され、端末装置Ｔに表示されるニュースページＰ１の一例を示す図である。ニュースページＰ１は、例えば、ニュース記事が表示される記事領域Ｒ１と、この記事に対して投稿された第１のコメントが表示される第１コメント領域Ｒ２と、第２のコメントが表示される第２コメント領域Ｒ３とを含む。尚、ニュースページＰ１は、３つ以上のコメントを表示するための領域が設定されてもよい。

この第１コメント領域Ｒ２および第２コメント領域Ｒ３の各々には、コメントを閲覧したユーザによるコメントが不適切であることを示す報告を受け付けるボタンＢ１と、コメントに対するポジティブな評価の入力を受け付けるボタンＢ２（「良い」ボタン）と、コメントに対するネガティブな評価の入力を受け付けるボタンＢ３（「悪い」ボタン）とが含まれる。ボタンＢ２およびＢ３の各々には、コメントを閲覧した全ユーザがボタンを押下した合計回数があわせて表示されている。ユーザによるボタンＢ２またはＢ３の押下に基づいて、この合計回数が１つ増大される。

ユーザが端末装置Ｔを操作することにより、ボタンＢ１が押下されると、ユーザによる報告内容の入力を受け付ける報告ページが端末装置Ｔに表示される。図４は、図３における第２コメント領域Ｒ３のボタンＢ１が押下された場合に端末装置Ｔに表示される報告ページＰ２の一例を示す図である。報告ページＰ２は、不適切コメントの種類の指定を受け付ける。不適切コメントの種類には、例えば、「性差別」、「国籍差別」、「人種差別」等が含まれる。図４に示す例では、ユーザが不適切コメントの種類ごとに設定されたラジオボタンを選択することにより、種類の指定を受け付けるようになっている。図４に示す例では、「誹謗・中傷」がユーザにより指定された場合を示している。

また、報告ページＰ２は、コメント内における不適切な表現のユーザによる指定を受け付ける。図４に示す例では、コメント「Ｂの声が嫌い。二度と出るな。」における「声が嫌い」との表現がユーザにより指定された場合を示している。また、報告ページＰ２は、不適切な内容の詳細として、コメントに対するユーザの意見等のフリー入力（テキスト入力）を受け付ける。

ユーザが端末装置Ｔを操作することにより、上記のような報告内容を入力した後、「送信」ボタンを押下することで、サービス提供装置１に不適切コメントに関する情報を報告することが出来る。サービス提供装置１は、端末装置Ｔから受信した報告内容を報告情報記憶部２８に記憶させる。

図５は、報告情報記憶部２８に記憶された報告情報２８Ａの一例を示す図である。この報告情報２８Ａには、ニュース記事を識別する「記事ＩＤ」と、コメントを識別する「コメントＩＤ」と、不適切コメントの報告を行ったユーザ（報告者）を識別する「ユーザＩＤ」と、上記の報告ページＰ２においてユーザにより指定された不適切コメントの種類を示す「種類」と、ユーザにより指定された不適切な表現を示す「不適切な表現」と、ユーザにより入力された不適切な内容の詳細を示す「不適切な内容の詳細」とが関連付けされた１以上のデータが含まれる。以上により、サービス提供装置１は、不適切コメントに関する報告情報を収集することができる。

［不適切コメントの判定処理（第１例）］
以下、サービス提供装置１により実施される不適切コメントの判定処理の一例について説明する。図６は、サービス提供装置１による不適切コメントの判定処理の第１例である第１判定処理の流れを示すフローチャートである。この第１判定処理は、例えば、日ごと、週ごと等の所定のタイミングで実施されるバッチ処理により実施されてよい。

まず、サービス提供装置１は、コンテンツ情報記憶部２６に記憶されたコメント情報２６Ｂから１件のコメントを抽出し、抽出したコメントに対する報告情報を報告情報記憶部２８から抽出する（Ｓ１０１）。

図７は、コンテンツ情報記憶部２６に記憶されたコメント情報２６Ｂの一例を示す図である。サービス提供装置１は、例えば、コメント情報２６Ｂから、コメントＩＤ「Ｃ２」のコメント「Ｂの声が嫌い。二度と出るな。」を抽出し、このコメントＩＤ「Ｃ２」を検索キーとして、図５に示される報告情報２８Ａの中から報告情報を抽出する。

次に、サービス提供装置１は、抽出したコメントに対する報告件数が、所定の閾値以上であるか否かを判定する（Ｓ１０３）。ある程度の件数の報告がなされたコメントは、不適切コメントである可能性が高いことが想定される。このため、サービス提供装置１は、報告件数に基づいて、コメントが不適切コメントであるか否かの一次判断を行う。例えば、抽出したコメントに対する報告件数が、閾値（例えば、１０件）以上であるか否かを判定する。

サービス提供装置１は、抽出したコメントに対する報告件数が所定の閾値以上ではないと判定した場合、このコメントが不適切コメントと断定することはできないため、このコメントに対して「適切ラベル」を付与する（Ｓ１０５）。

一方、サービス提供装置１は、抽出したコメントに対する報告件数が所定の閾値以上であると判定した場合、報告内容の信頼性を判定するための以下の処理を行う。あるコメントに対する報告が特定の偏った思想、見解等を持つ一部のユーザにより行われているような場合には、この報告の信頼性が高くない場合がある。例えば、政治的なニュース記事に対するコメントに対して、このコメントとは異なる思想、見解等を持つユーザにより報告がなされている場合には、報告件数は十分であっても、世間一般の判断では必ずしも不適切コメントとは言えない場合がある。このため、サービス提供装置１は、報告を行ったユーザの属性の分布を参照し、この属性に偏りがあるか否かを判定し（Ｓ１０７）、この判定結果（偏り度合い）に基づいて、抽出したコメントが不適切であるか否かを判定する。

サービス提供装置１は、ユーザの属性の分布に偏りが無いと判定した場合、コメントに対する報告内容の信頼性が高いと判定して、このコメントに対して「不適切ラベル」を付与する（Ｓ１０９）。一方、サービス提供装置１は、ユーザの属性の分布に偏りがあると判定した場合、コメントに対する報告内容の信頼性が低いと判定して、このコメントに対して「準不適切ラベル」を付与する（Ｓ１１１）。

図８は、ユーザ情報記憶部３０に記憶されたユーザ情報３０Ａの一例を示す図である。サービス提供装置１は、例えば、抽出したコメントに対して報告を行ったユーザのユーザＩＤを図５に示される報告情報２８Ａから取得し、この取得したユーザＩＤを検索キーとして、このユーザの属性に関する情報をユーザ情報３０Ａから取得する。そして、サービス提供装置１は、取得したユーザの属性の分布に偏りがあるか否かを判定する。サービス提供装置１は、例えば、ユーザの属性が、「男性」、「３０代」にのみ偏っているような場合にはユーザの属性の分布に偏りがあると判定し、コメントに対する報告内容の信頼性が低いと判定して、このコメントに対して「準不適切ラベル」を付与する。

尚、サービス提供装置１は、上記のユーザの属性の分布の偏りの判定を行う場合には、例えば、ユーザの属性に基づいてユーザベクトル（特徴情報）を生成するようにしてよい。ユーザベクトルは、ユーザの属性を要素に置き替えた疎ベクトルで表されるベクトルデータであってよい。あるいは、ユーザベクトルは、ウェブ上でのユーザの行動履歴や、ユーザの属性情報などをもとに生成されてもよい。サービス提供装置１は、このユーザベクトルのベクトル間距離に基づいて、取得したユーザの属性の分布に偏りがあるか否かを判定してよい。

尚、サービス提供装置１は、上記のようなユーザの属性の偏り度合いに基づいて、「準不適切ラベル」をさらに細かく設定してもよい。例えば、サービス提供装置１は、ユーザの属性の偏り度合いに基づいて、「準不適切ラベル」を０から１の数値で表すように設定してもよい。この数値で表された「準不適切ラベル」は、例えば、１に近いほど、不適切である可能性が高いことを示すように設定されてよい。

尚、サービス提供装置１は、コメント情報２６Ｂに含まれる「良い」ボタンＢ２が押下された回数、「悪い」ボタンＢ３が押下された回数の情報を用いて、上記のラベルの判定を行ってもよい。例えば、サービス提供装置１は、「悪い」ボタンＢ３が押下された回数が所定の閾値以上であるコメントについては、「不適切ラベル」を付与してもよい。

サービス提供装置１は、上記の判定結果に関する情報をコメント情報２６Ｂに記憶させてもよい。図９は、判定結果に関する情報が追加されたコメント情報２６Ｂの一例を示す図である。図９に示す例では、ラベル「適切」、「不適切」、「準不適切」が各データに追加されている。

サービス提供装置１は、以上の処理（Ｓ１０１からＳ１１１）を、コメント情報２６Ｂに含まれるコメントの各々に対して繰り返し実施する。

次に、サービス提供装置１は、ラベルが付与されたコメント（コメントと、ラベルとの組）を学習データとして機械学習を行い、判定モデル３２Ａを生成する（Ｓ１１３）。図１０は、学習データの一例を示す図である。図１０では、図９に示すコメント情報２６Ｂから抽出された「コメント」と「ラベル」との組を学習データとする例を示している。サービス提供装置１は、このような学習データを用いて機械学習を行うことにより生成した判定モデル３２Ａを、モデル記憶部３２に記憶させる。サービス提供装置１の第２判定部２５は、ユーザにより新たなコメントが入力されると、上記において生成されてモデル記憶部３２に記憶された判定モデル３２Ａを用いて、入力されたコメントが不適切コメントであるか否かを判定することができる。以上により、サービス提供装置１は本フローチャートの処理を終了する。

尚、サービス提供装置１は、不適切コメントと、不適切コメントの種類との関係を学習するようにしてもよい。また、サービス提供装置１は、コメント全文を学習データとするのではなく、ユーザにより指定された「不適切な表現」の箇所のみを学習データとするようにしてもよい。また、サービス提供装置１は、全てのコメントを学習データとするのではなく、報告内容の信頼性が高いコメントのみを学習データとするようにしてもよい。また、サービス提供装置１は、ニュース記事の本文も学習データに組み入れるようにしてもよい。

［不適切コメントの判定処理（第２例）］
以下、サービス提供装置１により実施される不適切コメントの判定処理の他の例について説明する。図１１は、サービス提供装置１による不適切コメントの判定処理の第２例である第２判定処理の流れを示すフローチャートである。この第２判定処理は、例えば、日ごと、週ごと等の所定のタイミングで実施されるバッチ処理により実施されてよい。

まず、サービス提供装置１は、コンテンツ情報記憶部２６に記憶されたコメント情報２６Ｂから１件のコメントを抽出し、抽出したコメントに対する報告情報を報告情報記憶部２８から抽出する（Ｓ２０１）。

次に、サービス提供装置１は、抽出したコメントに対する報告件数が、所定の閾値以上であるか否かを判定する（Ｓ２０３）。

サービス提供装置１は、抽出したコメントに対する報告件数が所定の閾値以上ではないと判定した場合、不適切コメントと断定することはできないため、このコメントに対して「適切ラベル」を付与する（Ｓ２０５）。

一方、サービス提供装置１は、抽出したコメントに対する報告件数が所定の閾値以上であると判定した場合、報告内容の信頼性を判定するための以下の処理を行う。不適切コメントはその種類に応じて、報告を行うユーザの属性の分布に傾向が表れることが想定される。例えば、「性差別（女性差別）」に関する不適切コメントに対する報告は、このコメントに対して嫌悪感を抱きやすい「女性」のユーザによりなされる傾向がある。このため、「性差別（女性差別）」に関する不適切コメントに対する報告を行ったユーザの属性の多くが「女性」である場合には、その報告の信頼性が高いことが想定される。一方、報告を行ったユーザの属性の多くが「男性」である場合には、その報告の信頼性が低いことが想定される。このため、サービス提供装置１は、不適切コメントの種類ごとに基準となる参照分布を予め定義し、実際に報告を行ったユーザの属性の分布がこの参照分布に類似しているか否かを判定し（Ｓ２０７）、この判定結果（類似性）に基づいて、抽出したコメントが不適切であるか否かを判定する。

尚、サービス提供装置１は、上記のユーザの属性の分布の類似性の判定を行う場合には、例えば、ユーザの属性に基づいてユーザベクトル（特徴情報）を生成し、このユーザベクトルのベクトル間距離に基づいて、取得したユーザの属性の分布が参照分布に類似しているか否かを判定してよい。

サービス提供装置１は、報告を行ったユーザの属性の分布が参照分布に類似していると判定した場合、コメントに対する報告内容の信頼性が高いと判定して、このコメントに対して「不適切ラベル」を付与する（Ｓ２０９）。一方、サービス提供装置１は、報告を行ったユーザの属性の分布がこの参照分布に類似していないと判定した場合、コメントに対する報告内容の信頼性が低いと判定して、このコメントに対して「準不適切ラベル」を付与する（Ｓ２１１）。

尚、サービス提供装置１は、上記のようなユーザの属性の分布の類似性に基づいて、「準不適切ラベル」をさらに細かく設定してもよい。例えば、サービス提供装置１は、ユーザの属性の分布の類似性に基づいて、「準不適切ラベル」を０から１の数値で表すように設定してもよい。この数値で表された「準不適切ラベル」は、例えば、１に近いほど、不適切である可能性が高いことを示すように設定されてよい。

サービス提供装置１は、以上の処理（Ｓ２０１からＳ２１１）を、コメント情報２６Ｂに含まれるコメントの各々に対して繰り返し実施する。

次に、サービス提供装置１は、ラベルが付与されたコメント（コメントと、ラベルとの組）を学習データとして機械学習を行い、判定モデル３２Ａを生成する（Ｓ２１３）。サービス提供装置１は、生成した判定モデル３２Ａを、モデル記憶部３２に記憶させる。以上により、サービス提供装置１は本フローチャートの処理を終了する。

［ニュースページの生成処理］
以下、サービス提供装置１により実施されるニュースページの生成処理の一例について説明する。図１２は、サービス提供装置１によるニュースページの生成処理の流れを示すフローチャートである。このニュースページの生成処理は、端末装置Ｔからのニュースページのリクエストを受信するたびに実施される。

まず、サービス提供装置１は、ユーザの操作に基づいて端末装置Ｔにより送信されたニュースページを要求するリクエストを受信する（Ｓ３０１）。

次に、サービス提供装置１は、要求されたニュースページの記事情報と、この記事情報に対して投稿されたコメント情報とを、コンテンツ情報記憶部２６から取得する（Ｓ３０３）。

次に、サービス提供装置１は、取得したコメントの掲載順位を仮決定する（Ｓ３０５）。サービス提供装置１は、例えば、コメントのクリック率や、コメントに対する評価、コメントに含まれる表現等に基づいて、コメントの掲載順位を仮決定する。例えば、サービス提供装置１は、コメントのクリック率が高い順に、コメントの掲載順位を仮決定する。

次に、サービス提供装置１は、掲載順位が仮決定されたコメントの中から１件のコメントを抽出し、抽出したコメントに不適切ラベルあるいは準不適切ラベルが付与されているか否かを判定する（Ｓ３０７）。サービス提供装置１は、抽出したコメントに不適切ラベルあるいは準不適切ラベルが付与されていると判定した場合、このコメントの掲載順位を下げるか、あるいは掲載対象から除外するように、コメントの掲載順位を決定する（Ｓ３０９）。一方、サービス提供装置１は、抽出したコメントに不適切ラベルあるいは準不適切ラベルが付与されていないと判定した場合、すなわち、抽出したコメントが適切コメントであると判定した場合、上記の掲載順位を下げる等の処理は行わない。

次に、サービス提供装置１は、全コメントに対する処理が完了した否かを判定する（Ｓ３１１）。サービス提供装置１は、全コメントに対する処理が完了していないと判定した場合、未処理のコメントを抽出し、上記の処理を繰り返す。一方、サービス提供装置１は、全コメントに対する処理が完了したと判定した場合、取得した記事情報と、コメント情報に含まれるコメントとを含むニュースページを生成し、端末装置Ｔに送信する（Ｓ３１３）。このニュースページにおいて、コメントは上記の掲載順位決定処理により決定された掲載順位で掲載される。

図１３は、サービス提供装置１により生成されたニュースページＰ１の一例を示す図である。ニュースページＰ１に含まれるコメントに関して、不適切ラベルあるいは準不適切ラベルが付与されたコメントは、掲載順位が下位に設定されているか、あるいは掲載対象から除外されている。以上により、本フローチャートの処理を終了する。

［新たに投稿されたコメントの不適切判定処理］
以下、サービス提供装置１により実施される新たに投稿されたコメントの不適切判定処理の一例について説明する。サービス提供装置１は、例えば、ユーザによる端末装置Ｔの操作に基づいてニュースサイトのページのコメント入力欄に対して新たなコメントが投稿され、この新たなコメントを投稿するリクエストを受信した場合、モデル記憶部３２に記憶された判定モデル３２Ａを用いて、この新たなコメントが不適切であるか否かを判定する。このような判定により、新たに投稿されたコメントが不適切であるか否かをリアルタイムで判定し、不適切であると判定されたコメントの掲載順位を下位に設定するか、あるいは掲載対象から除外するように制御することができる。

例えば、サービス提供装置１は、新たなコメントが不適切ではないと判定した場合、このコメントに対して「適切ラベル」を付与する。一方、サービス提供装置１は、投稿された新たなコメントが不適切であると判定した場合、このコメントに対して「不適切ラベル」を付与する。サービス提供装置１は、ラベルを付与したコメントを、コンテンツ情報記憶部２６のコメント情報２６Ｂに記憶させる。

尚、サービス提供装置１は、不適切であるか否かについて断定できないコメントに対しては、「準不適切ラベル」を付与してもよい。また、サービス提供装置１は、判定モデル３２Ａを用いた判定結果に基づいて、「準不適切ラベル」をさらに細かく設定してもよい。例えば、サービス提供装置１は、「準不適切ラベル」を０から１の数値で表すように設定してもよい。この数値で表された「準不適切ラベル」は、例えば、１に近いほど、不適切である可能性が高いことを示すように設定されてよい。

以上説明した実施形態のサービス提供装置１によれば、不適切コメントの検知を迅速且つ高精度で行うことが可能である。また、実施形態のサービス提供装置１によれば、不適切なコメントの掲載順位を下げる、あるいは掲載対象から除外することで、不適切なコメントが閲覧される機会を自動的に低減させることが可能である。

尚、サービス提供装置１は、コメントに基づいてコメントベクトル（特徴情報）を生成するようにしてよい。コメントベクトルは、分散表現化されたでベクトルデータであってよい。サービス提供装置１は、既知の不適切コメントのコメントベクトルと、新たなコメントのコメントベクトルとのベクトル間距離に基づいて、新たなコメントが、不適切コメントであるか否かを判定してよい。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１‥サービス提供装置、１０‥通信部、１２‥コンテンツ取得部、１４‥順位決定部、１６‥ページ生成部、１８‥報告情報処理部、２０‥第１判定部、２２‥ラベル付与部、２４‥学習部、２５‥第２判定部、２６‥コンテンツ情報記憶部、２８‥報告情報記憶部、３０‥ユーザ情報記憶部、３２‥モデル記憶部、Ｔ‥端末装置、ＮＷ‥ネットワーク

Claims

第１コンテンツに対して投稿されたコメントである第２コンテンツを閲覧したユーザによる、前記第２コンテンツが不適切であることを示し且つ前記第２コンテンツ内における不適切な表現の前記ユーザによる指定を含む報告を受け付ける受付部と、
前記受付部により受け付けられた前記報告に基づいて、前記第２コンテンツが不適切であるか否かを判定する第１判定部と、
前記第２コンテンツと、前記第１判定部による前記第２コンテンツが不適切であるか否かを示す判定結果を示すラベルと、の関係を学習して、判定モデルを生成する学習部と、
前記学習部により生成された前記判定モデルを用いて、前記第２コンテンツが不適切であるか否かを判定する第２判定部と、
を備え、
前記第１判定部は、前記受付部により受け付けられた前記報告の件数が閾値以上であり且つ前記ユーザの属性の分布に偏りがある場合、前記第２コンテンツが不適切であると判定する、
情報処理装置。
前記第１判定部により前記第２コンテンツが不適切であると判定された場合、前記第２コンテンツの掲載順位を下げるまたは掲載対象から除外するように、前記第２コンテンツの掲載順位を決定する順位決定部と、
前記順位決定部により決定された掲載順位に基づいて、前記第１コンテンツと前記第２コンテンツとを含むウェブページを生成するページ生成部と、
を備える、請求項１に記載の情報処理装置。
コンピュータが、
第１コンテンツに対して投稿されたコメントである第２コンテンツを閲覧したユーザによる、前記第２コンテンツが不適切であることを示し且つ前記第２コンテンツ内における不適切な表現の前記ユーザによる指定を含む報告を受け付け、
受け付けられた前記報告に基づいて、前記第２コンテンツが不適切であるか否かを判定する第１判定を行い、
前記第２コンテンツと、前記第１判定による前記第２コンテンツが不適切であるか否かを示す判定結果を示すラベルと、の関係を学習して、判定モデルを生成し、
生成された前記判定モデルを用いて、前記第２コンテンツが不適切であるか否かを判定する第２判定を行う、
情報処理方法であって、
前記第１判定は、受け付けられた前記報告の件数が閾値以上であり且つ前記ユーザの属性の分布に偏りがある場合、前記第２コンテンツが不適切であると判定する、
情報処理方法。
コンピュータに、
第１コンテンツに対して投稿されたコメントである第２コンテンツを閲覧したユーザによる、前記第２コンテンツが不適切であることを示し且つ前記第２コンテンツ内における不適切な表現の前記ユーザによる指定を含む報告を受け付けさせ、
受け付けられた前記報告に基づいて、前記第２コンテンツが不適切であるか否かを判定する第１判定を行わせ、
前記第２コンテンツと、前記第１判定による前記第２コンテンツが不適切であるか否かを示す判定結果を示すラベルと、の関係を学習させて、判定モデルを生成させ、
生成された前記判定モデルを用いて、前記第２コンテンツが不適切であるか否かを判定する第２判定を行わせる、
プログラムであって、
前記第１判定は、受け付けられた前記報告の件数が閾値以上であり且つ前記ユーザの属性の分布に偏りがある場合、前記第２コンテンツが不適切であると判定する、
プログラム。