JP2011164779A - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP2011164779A
JP2011164779A JP2010024585A JP2010024585A JP2011164779A JP 2011164779 A JP2011164779 A JP 2011164779A JP 2010024585 A JP2010024585 A JP 2010024585A JP 2010024585 A JP2010024585 A JP 2010024585A JP 2011164779 A JP2011164779 A JP 2011164779A
Authority
JP
Japan
Prior art keywords
token
title
unit
character string
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2010024585A
Other languages
English (en)
Inventor
Setsushi Minami
拙至 南
Naoki Kamimaeda
直樹 上前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2010024585A priority Critical patent/JP2011164779A/ja
Priority to CN2011100332840A priority patent/CN102147805A/zh
Priority to US13/016,533 priority patent/US8700386B2/en
Publication of JP2011164779A publication Critical patent/JP2011164779A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/37Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying segments of broadcast information, e.g. scenes or extracting programme ID
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/68Systems specially adapted for using specific information, e.g. geographical or meteorological information
    • H04H60/72Systems specially adapted for using specific information, e.g. geographical or meteorological information using electronic programme guides [EPG]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/68Systems specially adapted for using specific information, e.g. geographical or meteorological information
    • H04H60/73Systems specially adapted for using specific information, e.g. geographical or meteorological information using meta-information
    • H04H60/74Systems specially adapted for using specific information, e.g. geographical or meteorological information using meta-information using programme related information, e.g. title, composer or interpreter

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】先見知識を用いずにシリーズを識別する識別名を抽出することのできる情報処理装置を提供する。
【解決手段】情報処理装置100は、タイトル文字列を取得するタイトル取得部102と、タイトル文字列を解析して複数のトークンに分割するタイトル解析部104と、複数のトークンの文字列長に基づき、タイトル文字列中の該トークンの位置に応じて重みづけされた評価値を算出する評価値算出部106と、序数の値と評価値とにより位置が示されるトークン点を座標平面上にマッピングするマッピング部108と、トークン点の座標に基づいて、識別名を抽出するための基準点の座標と該基準点に基づいた抽出基準とを決定する抽出基準決定部110と、トークン点のうち抽出基準に適合するトークン点を抽出する抽出部112と、識別名を生成する識別名生成部114とを有する。
【選択図】図1

Description

本発明は、情報処理装置、情報処理方法、及びプログラムに関する。
テレビ又はラジオの番組、映画、新聞又は雑誌の連載、或いは、書物などにおいて、一連のシリーズと呼ばれる、一定の意図の下に企画されたコンテンツがある。テレビ又はラジオの番組においては、例えば、毎日ある時間帯に放送されるシリーズ番組、及び毎週同じ曜日の同じ時間帯に放送されるシリーズ番組がある。また、不定期に放送される番組の中にも、シリーズ番組と呼ばれるものがある。そして、例えば、映画においては、続編と言われるものもここで言うシリーズコンテンツに相当する。そのコンテンツがシリーズコンテンツであるか否かについての情報は、様々に利用することができるため有益な情報である。
例えば、特許文献1は、シリーズ番組の中でも毎日のある時間帯、毎週のある時間帯などのように決まった周期で放送される毎系の番組を対象として、EPG(Electronic Program Guide)データ中に含まれるシリーズ番組であることを示す情報を用いて、ある番組がシリーズ番組であるか否か判別する情報処理装置を開示している。かかる情報処理装置は、対象とする番組がシリーズ番組である場合には、対象とする番組のEPGデータと該番組と同じシリーズの番組の前の放送回のEPGデータとの双方に含まれるキーワードを用いてユーザの嗜好情報を更新する機能を有する。
ところが、特許文献1に記載の情報処理装置は、EPGデータ中にシリーズ番組であることを示す情報が含まれない環境においては適用することができない。このため、コンテンツのタイトルを用いてシリーズコンテンツを抽出する装置が考えられている。シリーズコンテンツのタイトルは、同じシリーズのコンテンツに共通して付けられるシリーズ名を含むものであることが多い。特に、特許文献2は、シリーズコンテンツのタイトルがシリーズ名にシリーズ性を示すシリーズ用語つなげたものである場合にシリーズ番組を抽出することが可能な番組予約装置を開示している。かかる番組予約装置は、予め設定されたシリーズ用語と合致した文字をコンテンツのタイトルから除いたメインタイトル同士が一致した番組をシリーズ番組として抽出する。
特開2007−208365号公報 特開2002−27416号公報
しかし、特許文献2に記載の番組予約装置は、予め先見知識として、シリーズ性を示す用語として用いられると予測されるシリーズ用語を全てのパターンについて設定しておく必要があるという問題があった。特に、先見知識は言語により異なるため、言語毎に異なる先見知識を検討する必要があった。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、先見知識を必要とせず、コンテンツのタイトルからシリーズコンテンツのシリーズを識別するためのシリーズ識別名を抽出することの可能な、新規かつ改良された情報処理装置、情報処理方法、及びプログラムを提供することにある。
上記課題を解決するために、本発明のある観点によれば、コンテンツのタイトルを示すタイトル文字列を取得するタイトル取得部と、上記タイトル取得部により取得されたタイトル文字列を解析し、上記タイトル文字列を複数のトークンに分割するタイトル解析部と、上記複数のトークンのそれぞれについて、該トークンの文字列長に基づき、上記タイトル文字列中の該トークンの位置に応じて重みづけされた評価値を算出する評価値算出部と、上記複数のトークンのそれぞれについて、上記タイトル文字列中のトークンの位置を示す序数の値と上記評価値とにより位置が示されるトークン点を座標平面上にマッピングするマッピング部と、上記マッピング部により上記座標平面上にマッピングされた上記トークン点の座標に基づいて、上記タイトルからシリーズを識別する識別名を抽出するための基準となる基準点の座標と該基準点に基づいた抽出基準とを決定する抽出基準決定部と、上記トークン点のうち上記抽出基準に適合するトークン点を抽出する抽出部と、上記抽出部により抽出されたトークン点に対応づけられているトークンに含まれる上記タイトル文字列から上記識別名を生成する識別名生成部とを有する情報処理装置が提供される。
かかる構成によれば、コンテンツのタイトル文字列から、シリーズを識別するためのシリーズ識別名を抽出することができる。このとき、コンテンツのタイトル文字列を解析することにより、複数のトークンに分割する。そして、トークンそれぞれについて、文字列長と序数とに基づいて評価値が算出され、かかる評価値に基づいてシリーズ識別名の一部として抽出するトークンを決定する。そして、抽出されたトークンを連結することによりシリーズ識別名は生成される。つまり、文字列長の長いトークンほど評価値の値は大きくなり、さらに、タイトル文字列中の先頭近くに位置するトークンほど評価値の値は大きくなる。このため、文字列長が長く先頭に近い位置のトークンほどシリーズ識別名の一部として採用されやすくなる。シリーズ名は、タイトル文字列中の先頭に近い位置に挿入される場合が多いため、シリーズを表す文字列を抽出しやすくなる効果がある。このとき、シリーズ識別名の抽出においては例えば辞書などの先見知識を必要としないため、先見知識の更新を考慮する必要がなく、また、異なる言語に適用する場合であっても新たに先見知識を準備する必要がないという効果がある。
また、上記抽出基準決定部は、上記座標平面上の上記基準点を通り所定の傾きを有する基準線と上記トークン点の座標との位置関係に基づいた上記抽出基準を決定してもよい。
また、上記評価値算出部は、上記序数が小さいトークンほど大きな値となる重み係数を用いて上記評価値を重み付けし、上記抽出基準決定部は、上記評価値が上記基準線上の点と比較して大きいトークン点を抽出する抽出基準を決定してもよい。
また、上記抽出部は、上記抽出基準に適合するトークン点の抽出に成功したか否かを示す成否情報を出力し、上記抽出部から受信した上記成否情報に基づいて、上記基準線の傾きの値を調整するフィードバック制御部をさらに有してもよい。
また、上記抽出部は、上記抽出基準に適合するトークン点の数が所定の成否判定値よりも小さい場合に、上記トークン点の抽出に失敗したと判定してもよい。
また、上記フィードバック制御部は、上記基準線の傾きの値に所定の調整値を加算する、または減算することにより上記基準線の傾きの値を調整してもよい。
また、上記フィードバック制御部は、上記基準線の傾きの値を所定の調整値で乗算する、または除算することにより上記基準線の傾きの値を調整してもよい。
また、上記フィードバック制御部は、上記抽出部から受信した上記成否情報が抽出成功を示した回数及び上記成否情報が抽出失敗を示した回数にそれぞれ応じて成功値と失敗値とを増減させ、上記成功値が所定の成功閾値を超えた場合、または、上記失敗値が所定の失敗閾値を超えた場合に、上記基準線の傾きの値を調整してもよい。
また、上記フィードバック制御部は、上記抽出部から受信した上記成否情報がある一定回数以上連続して抽出成功を示した場合、または、上記成否情報がある一定回数以上連続して抽出失敗を示した場合に、上記基準線の傾きの値を調整してもよい。
また、上記フィードバック制御部は、上記調整の結果上記基準線の傾きの値が所定の傾き範囲を超えた場合に上記基準線の傾きの値を所定の初期値にしてもよい。
また、上記評価値算出部は、上記トークンの文字列長が所定の最低文字列長よりも短い場合には、上記評価値を算出せず該トークンを抽出対象から外してもよい。
また、上記タイトル解析部は、上記解析の結果生成されたトークンの数が所定の最低トークン数未満であった場合には、上記生成されたトークンを上記識別名生成部に出力し、上記識別名生成部は、上記タイトル解析部から入力されたトークンを結合することにより上記識別名を生成してもよい。
また、上記課題を解決するために、本発明の別の観点によれば、情報処理装置の有する、タイトル取得部が、コンテンツのタイトルを示すタイトル文字列を取得するステップと、タイトル解析部が、上記タイトル取得部により取得されたタイトル文字列を解析し、上記タイトル文字列を複数のトークンに分割するステップと、評価値算出部が、上記複数のトークンのそれぞれについて、該トークンの文字列長に基づき、上記タイトル文字列中の該トークンの位置に応じて重みづけされた評価値を算出するステップと、マッピング部が、上記複数のトークンのそれぞれについて、上記タイトル文字列中のトークンの位置を示す序数の値と上記評価値とにより位置が示されるトークン点を座標平面上にマッピングするステップと、抽出基準決定部が、上記マッピング部により上記座標平面上にマッピングされた上記トークン点の座標に基づいて、上記タイトルからシリーズを識別する識別名を抽出するための基準となる基準点の座標と該基準点に基づいた抽出基準とを決定するステップと、抽出部が、上記トークン点のうち上記抽出基準に適合するトークン点を抽出するステップと、識別名生成部が、上記抽出部により抽出されたトークン点に対応づけられているトークンに含まれる上記タイトル文字列から上記識別名を生成するステップとを含む、情報処理方法が提供される。
また、上記課題を解決するために、本発明の別の観点によれば、コンテンツのタイトルを示すタイトル文字列を取得する処理と、上記タイトル取得部により取得されたタイトル文字列を解析し、上記タイトル文字列を複数のトークンに分割する処理と、上記複数のトークンのそれぞれについて、該トークンの文字列長に基づき、上記タイトル文字列中の該トークンの位置に応じて重みづけされた評価値を算出する処理と、上記複数のトークンのそれぞれについて、上記タイトル文字列中のトークンの位置を示す序数の値と上記評価値とにより位置が示されるトークン点を座標平面上にマッピングする処理と、上記マッピング部により上記座標平面上にマッピングされた上記トークン点の座標に基づいて、上記タイトルからシリーズを識別する識別名を抽出するための基準となる基準点の座標と該基準点に基づいた抽出基準とを決定する処理と、上記トークン点のうち上記抽出基準に適合するトークン点を抽出する処理と、上記抽出部により抽出されたトークン点に対応づけられているトークンに含まれる上記タイトル文字列から上記識別名を生成する処理と、をコンピュータに実行させるためのプログラムが提供される。
以上説明したように本発明によれば、先見知識を必要とせず、コンテンツのタイトルからシリーズコンテンツのシリーズを識別するためのシリーズ識別名を抽出することが可能である。
本発明の一実施形態に係る情報処理装置の機能構成図である。 同実施形態に係る情報処理方法の一例を示すフローチャートである。 図2のフローチャートのフィードバック判定処理のサブフローチャートである。 日本語のタイトルを解析して得られた序数と評価値とがマッピングされた座標平面の一例を示す説明図である。 日本語のタイトルを解析して得られた序数と評価値とがマッピングされた座標平面の他の一例を示す説明図である。 日本語のタイトルを解析して得られた序数と評価値とがマッピングされた座標平面の他の一例を示す説明図である。 英語のタイトルを解析して得られた序数と評価値とがマッピングされた座標平面の一例を示す説明図である。 英語のタイトルを解析して得られた序数と評価値とがマッピングされた座標平面の他の一例を示す説明図である。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.情報処理装置の機能構成
2.情報処理装置の動作例
3.適用例
4.効果の例
<情報処理装置の機能構成>
まず、本発明の一実施形態に係る情報処理装置の機能構成について、図1を参照しながら説明する。図1は、本発明の一実施形態に係る情報処理装置の機能構成図である。
情報処理装置100は、先見知識を必要とせず、コンテンツのタイトルからシリーズコンテンツのシリーズを識別するためのシリーズ識別名を抽出する機能を有するシリーズ識別名抽出装置である。ここでいうコンテンツは、例えば、テレビ又はラジオの番組、映画、新聞又は雑誌の連載、或いは、書物などが挙げられるがこれに限られない。そして、本実施形態においてシリーズコンテンツは、共通する一定の意図の下に企画されたコンテンツであり、コンテンツ中にシリーズに共通して用いられるシリーズ名を含むものとする。
さらに、本実施形態に係る情報処理装置100が抽出するシリーズ識別名は、シリーズを識別するための文字列であり、必ずしも意味を成す言葉であることを必要としない。例えば、シリーズ識別名同士を比較することで、複数のコンテンツが同じシリーズであることを識別することができるものであればよい。従って、本実施形態において用いられるシリーズ識別名は、必ずしもコンテンツの製作者が付与したシリーズ名と一致しない。
情報処理装置100は、上記の機能を実現するために、タイトル取得部102と、タイトル解析部104と、評価値算出部106と、マッピング部108と、抽出基準決定部110と、抽出部112と、識別名生成部114と、識別名出力部116と、フィードバック制御部118と、メモリ部120とを主に有する。
タイトル取得部102は、コンテンツのタイトルを示すタイトル文字列を取得する機能を有する。例えば、テレビ番組コンテンツの場合には、タイトル取得部102は、SI/EPG(Service Information/Electronic Program Guide)のタイトルフィールドからタイトル文字列を抽出することによりタイトル文字列を取得する。または、インターネット上のコンテンツ情報から取得する場合には、タイトル取得部102は、HTML(Hyper Text Markup Language)のタイトルタグ(例えば、<TITLE/>タグ)で囲まれた文字列を抽出することによりタイトル文字列を取得する。或いは、タイトル取得部102は、RSSフィードまたはAtomフィードのデータ中から、特定のタイトルタグで囲まれた文字列を抽出することによりタイトル文字列を取得する。
タイトル解析部104は、タイトル取得部により取得されたタイトル文字列を解析し、解析結果からタイトル文字列を複数のトークンに分割する機能を有する。解析に用いられる手法は、一般的に用いられる文字列解析の手法が用いられてよい。そして、タイトル解析部104は、解析の結果生成されたトークンの数が所定の最低トークン数未満である場合には、生成されたトークンを識別名生成部114に入力する。例えば、最低トークン数が3であると予め定められている場合において、解析の結果生成されたトークンの数が2つである場合には、このタイトルに対しては後述する評価値算出処理などは実行されない。一方、解析の結果生成されたトークンの数が所定の最低トークン数以上である場合には、タイトル解析部104は、生成されたトークンを評価値算出部106に入力する。
評価値算出部106は、タイトル解析部104における解析の結果タイトル文字列を分割して得られた複数のトークンのそれぞれについて、評価値を算出する機能を有する。具体的には、評価値算出部106は、タイトル解析部104における解析結果である複数のトークンに対して、数列化処理、ノイズ除去処理、及び重み付け処理を行うことにより評価値を算出する。ここで評価値は、本実施形態に係る情報処理装置100においてそのトークンをシリーズ識別名の一部として用いるために抽出するか否かを判定するための評価に用いる値である。評価値は、トークンの文字列長に基づいて算出される。また、評価値は、トークンのタイトル文字列中の位置に応じて重み付けすることにより算出される。例えば、評価値は、トークンの文字列長に重み係数を乗算した値であってもよい。ここで重み係数は、そのトークンがタイトル文字列中先頭に近い位置にあればあるほど大きな値となる係数である。また、評価値算出部106は、トークンの文字列長が所定の最低文字列長よりも短い場合には、評価値を算出せずに所定の最低文字列長よりも短いトークンを抽出対象から外してもよい。例えば、最低文字列長を2とすると、1文字からなるトークンは抽出対象から外される。
マッピング部108は、評価値算出部106においてそれぞれ評価値が算出された複数のトークンのそれぞれについて、タイトル文字列中のトークンの位置を示す序数の値と、評価値算出部106において算出された評価値の値とにより位置が示されるトークン点を座標平面上にマッピングする機能を有する。ここで、序数は、例えば、評価値算出部106において生成された数列において、先頭から順番に番号を振られた数値である。評価値算出部106において生成された数列は、タイトル文字列の先頭に近いトークンから順番にそのトークンに対応する評価値を初項から順に格納した数列であるため、この序数はタイトル文字列中のトークンの位置に応じた数値となる。
抽出基準決定部110は、マッピング部108により座標平面上にマッピングされたトークン点の中から、シリーズを識別するシリーズ識別名の一部として採用するトークン点を抽出するための基準となる抽出基準を決定する機能を有する。ここで、抽出基準決定部110は、まずマッピング部108により座標平面上にマッピングされたトークン点の座標に基づいて基準点の座標を決定する。基準点は、マッピングされたトークン点の近傍であり、トークン点のうち最大座標を有する点と最小座標を有する点との間の空間に位置する点であることが好ましい。例えば、最大座標と最小座標との平均座標であってもよい。そして、抽出基準決定部110は、この基準点に基づいて抽出基準を決定する。例えば、抽出基準決定部110は、基準点を通り所定の傾きαを有する基準線とマッピング部108によりマッピングされたトークン点との座標平面上における位置関係に基づいた抽出基準を決定する。具体的には、抽出基準決定部110は、座標平面上において、基準線よりも上に位置するトークン点を抽出するという抽出基準を決定してもよい。基準線より上に位置するトークン点とは、トークン点の序数における基準線上の点の評価値と比較して大きい評価値を有するトークン点である。
抽出部112は、抽出基準決定部110において決定された抽出基準に従ってトークン点を抽出する機能を有する。即ち、抽出部112は、マッピング部108によりマッピングされたトークン点のそれぞれについて、抽出基準決定部110において決定された抽出基準に適合するか否かを判定し、抽出基準に適合するトークン点を抽出する。そして、抽出部112は、抽出基準に適合するトークン点の抽出に成功したか否かを示す成否情報をフィードバック制御部118に出力する。このとき抽出部112は、抽出基準に適合するトークン点の数が、所定の成否判定値よりも小さい場合にはトークン点の抽出に失敗したことを示す成否情報を出力し、抽出基準に適合するトークン点の数が、所定の成否判定値以上である場合には、トークン点の抽出に成功したことを示す成否情報を出力する。
識別名生成部114は、入力されたトークンからシリーズ識別名を生成する機能を有する。識別名生成部114は、タイトル解析部104または抽出部112のいずれかよりトークンを入力され、入力されたトークンに含まれる文字列を連結することによりシリーズ識別名を生成する。
識別名出力部116は、識別名生成部114において生成されたシリーズ識別名を出力する機能を有する。識別名出力部116は、情報処理装置100の機能に応じた出力先にシリーズ識別名を出力することができる。
フィードバック制御部118は、抽出部116から受信した成否情報に基づいて基準線の傾きの値αを調整する機能を有する。フィードバック制御部118は、成否情報が抽出成功を示した回数を示す成功値と、成否情報が抽出失敗を示した回数を示す失敗値とを増減させ、成功値が所定の成功閾値を超えた場合、または、失敗値が所定の失敗閾値を超えた場合に基準線の傾きαを調整する。フィードバック制御部118は、基準線の傾きの値αに所定の調整値を加算する、または減算することにより基準線の傾きの値αを調整する。このとき、加算するときの調整値である加算調整値と減算するときの調整値である減算調整値とは異なる値であってもよい。また、フィードバック制御部118は、基準線の傾きの値αに予め傾き範囲を定め、調整の結果、基準線の傾きの値αがこの傾き範囲を超えた場合には、基準線の傾きの値αを所定の初期値に戻しリセットしてもよい。
メモリ部120は、情報処理装置100の各部が処理に用いる各種のパラメータ等を記憶する記憶装置である。メモリ部120は、例えば、所定の基準線の傾きの値αを記憶してもよい。また、メモリ部120は、例えば、成功値と失敗値との値を記憶してもよい。また、メモリ部120は、例えば、成功閾値と失敗閾値との値を記憶してもよい。例えば、抽出基準決定部110及びフィードバック制御部118は、メモリ部120を参照することによりこれら各値を取得することができる。また、抽出基準決定部110及びフィードバック制御部118は、これら各値をメモリ部120に書き込むことにより更新することもできる。
<情報処理装置の動作例>
次に、情報処理装置100が動作することにより実現される情報処理方法について、図2および図3のフローチャートを参照しながら説明する。図2は、本実施形態に係る情報処理方法の一例を示すフローチャートである。図3は、図2のフローチャートのステップS124のフィードバック判定処理の詳細なフローを示すサブフローチャートである。
なお、以下の説明中、具体例として情報処理装置100にタイトル文字列“[解][字][デ]連続ラヂオ小説 つばめ(1)「ハタチのおかんとホーローの父」”を入力した場合の処理について説明する。説明中用いる情報処理装置100の機能部の名称は図1と共通である。
まず、情報処理装置100のタイトル取得部102は、SI/EPGのタイトルフィールドからタイトル文字列“[解][字][デ]連続ラヂオ小説 つばめ(1)「ハタチのおかんとホーローの父」”を取得する(S102)。
そして、次に、タイトル解析部104は、タイトル文字列“[解][字][デ]連続ラヂオ小説 つばめ(1)「ハタチのおかんとホーローの父」”に対して解析を実行することにより、“解/字/デ/連続/ラヂオ/小説/つばめ/1/ハタチ/のおかんと/ホーロー/の/父”という解析結果を得る(S104)。ここで、スラッシュ“/”により区切られた文字列ひとつひとつがトークンである。そして、タイトル解析部104は、解析の結果生成されたトークンが3つ以上であるか否かを判定する(S106)。もしもここでトークンが3つ未満である場合には、タイトル解析部104は、生成されたトークンを識別名生成部114に入力する。そして、識別名生成部114は、入力された全トークンを連結して識別名を生成する(S108)。
本実施形態においては、解析の結果生成されたトークンが3つ以上あるため、評価値算出部106における評価値算出処理に移る。評価値算出処理は、図2において数列化処理(S110)と、ノイズ除去処理(S112)と、重み付け処理(S114)とに分けられる。
具体的には、評価値算出部106は、まず、ステップS110において、タイトル解析部104の解析結果である“解/字/デ/連続/ラヂオ/小説/つばめ/1/ハタチ/のおかんと/ホーロー/の/父”を数列化処理する。すなわち、評価値算出部106は、トークンそれぞれの文字列長の数値を各項に有する文字列長数列を生成する。本実施形態において得られる文字列長数列は、D={1,1,2,3,2,3,1,3,5,4,1,1}である。ここで評価値算出部106が文字列長を用いるのは、タイトル文字列中、長い文字列ほど重要な意味を有するという前提に従ったものである。シリーズを示すシリーズ名は、シリーズを識別する機能を有する必要がある以上、1文字など極端に短いトークンはシリーズを識別する機能を有する可能性が低い。このため、評価値算出部106は、文字列長を評価値の大きさに反映させた。
そして次に、評価値算出部106は、ステップS112において、文字列長数列Dからノイズを除去する。具体的には、評価値算出部106は、文字列長数列D={1,1,2,3,2,3,1,3,5,4,1,1}から最低文字列長よりも小さい値を削除する。本実施形態においては、最低文字列長は2であるため、評価値算出部106は、文字列長数列Dから値が1である項を削除する。これは、上述した、タイトル文字列中、長い文字列ほど重要な意味を有するという前提に従ったものである。本実施形態において用いたタイトルの例を見てもわかるように、タイトル文字列中には、[解]などコンテンツの内容とは直接関係のない文字が含まれていることもある。評価値算出部106は、このノイズ除去処理によりコンテンツの内容と直接関係のないノイズの影響を除去することができる。ノイズ除去後の文字列長数列は、D={2,3,2,3,3,5,4}となる。
そして、さらに評価値算出部106は、ステップS114において、重み付け処理を実行する。具体的には、評価値算出部106は、ノイズ除去後の文字列長数列D={2,3,2,3,3,5,4}に対する重み係数を算出し、文字列長数列Dを重み付けする。本実施形態において、重み係数は、ノイズ除去後の文字列長数列のサイズ(総項数)をs、序数をnとした場合に2s-nで表される。コンテンツのタイトル中、シリーズ名に相当する文字列は、先頭近くに位置することが多い。このため、ここで用いられる重み係数は、文字列長数列中、初項に近い項に対する重み係数ほど大きな値となる係数である。重み係数を用いて文字列長数列Dを重み付けすると、評価値を示す評価値数列を得ることができる。評価値数列は、{64*2,32*3,16*2,8*3,4*3,2*5,1*4}となる。
次に、マッピング部108は、座標平面上において、序数の値と評価値とにより位置が特定されるトークン点をマッピングする(S115)。即ち、x軸が序数、y軸が評価値であるとすると、本実施形態においては、マッピング部108は、(1,128)、(2,96)、(3,32)、(4,24)、(5,12)、(6,10)、(7,4)の座標で表される7つのトークン点を座標平面状にマッピングする。
ここで、トークン点がマッピングされた座標平面を図4に示した。図4は、日本語のタイトル“解/字/デ/連続/ラヂオ/小説/つばめ/1/ハタチ/のおかんと/ホーロー/の/父”を解析して得られた序数と評価値とがマッピングされた座標平面の一例を示す説明図である。図4に示す座標平面は、マッピング部108によりマッピングされた7つのトークン点を含む。トークン「連続」と対応するトークン点11の座標は、(1,128)である。トークン「ラヂオ」と対応するトークン点12の座標は、(2,96)である。トークン「小説」と対応するトークン点13の座標は、(3,32)である。トークン「つばめ」と対応するトークン点14の座標は、(4,24)である。トークン「ハタチ」と対応するトークン点15の座標は、(5,12)である。トークン「のおかんと」と対応するトークン点16の座標は、(6,10)である。そして、トークン「ホーロー」と対応するトークン点17の座標は、(7,4)である。
序数と評価値とが座標平面上にマッピングされると、次に抽出基準決定部110は、シリーズ識別名を抽出するための基準となる抽出基準を決定する(S116)。抽出基準決定部110は、まず、シリーズ識別名を抽出するための基準点を決定する。基準点は、例えば、マッピングされたトークン点の座標のうちの最大座標と最小座標との平均座標を有する点であってもよい。ここで最大座標と最小座標とは、評価値の値に基づいて決定されてもよい。例えば、図4の例においては、最大座標を有するトークン点11と最小座標を有するトークン点17との平均座標を有する点を基準点251とする。ここで基準点251の座標は(3,66)である。そして、抽出基準決定部110は、次に、この基準点251を通り、所定の傾きの値αを有する基準線201を上記座標平面上に引く。そして、この基準線201よりも上位に位置するトークン点を抽出することとする抽出基準を決定する。
抽出基準が決定されると、抽出部112は、決定された抽出基準に適合するトークン点を抽出する。そして、抽出部112は、抽出基準に適合するトークンが成否判定値以上あるか否かを判定する(S118)。本実施形態においては、成否判定値=1であるとする。ステップS118の判定において、抽出基準に適合するトークンが1つ以上ある場合には、抽出部112は、識別名生成部114に抽出したトークン点を入力する。そして、識別名生成部114は、抽出部112から入力されたトークン点に対応づけられているトークンに含まれるタイトル文字列を連結することにより、シリーズ識別名を生成する(S120)。それと共に、抽出部112は、抽出に成功したことを示す成否情報をフィードバック制御部118に入力する。一方、ステップS118の判定において、抽出基準に適合するトークンが1つ以上ない場合には、抽出部112は、抽出に失敗したことを示す成否情報をフィードバック制御部118に入力する。
例えば、図4の例においては、抽出部112は、基準点251を通り、所定の傾きの値α(本実施形態においては、α=1であるとする。)を有する基準線201と比較して上位に位置するトークン点を抽出する。例えば、基準線201がy=x+63の式で表される線であるとすると、トークン点11は、x=1における基準線201上の点(1,64)と比較して、yの値(評価値の値に相当)が大きいため、基準線201よりも上位に位置し、抽出基準に適合するトークン点であると判定される。同様に、トークン点12〜トークン点17についても抽出基準に適合するか否かが判定され、結果的にトークン点11とトークン点12とが抽出基準に適合する点として抽出される。このため、かかる例において、識別名生成部114は、「連続ラヂオ」という文字列をシリーズ識別名として抽出する。
フィードバック制御部118は、抽出部112から成否情報を受け取ると、受け取った成否情報が抽出に成功したことを示す場合には、成功値を増加させる(S122)。一方、受け取った成否情報が抽出に失敗したことを示す場合には、フィードバック制御部118は、失敗値を増加させる(S124)。次に、フィードバック制御部118は、かかる成功値と失敗値とを用いて、フィードバック判定処理を実行する(S126)。
ここで、フィードバック判定処理の詳細な処理については、図3を参照しながら説明する。図3は、図2のフローチャートのフィードバック判定処理の詳細な処理を示すサブフローチャートである。
まず、フィードバック制御部118は、失敗値が失敗閾値を超えたか否かを判定する(S202)。ここで、失敗閾値は予め定められた値であり、例えばメモリ部120に記憶されている値である。そして、ステップS202の判定において、失敗値が失敗閾値を超えている場合には、フィードバック制御部118は、基準線の傾きαから所定の調整値を減算することにより、基準線の傾きαの値を調整する。そして、フィードバック制御部118は、この場合フィードバック判定の結果をTrueとする(S210)。
一方、ステップS202の判定において、失敗値が失敗閾値を超えない場合には、次に、フィードバック制御部118は、成功値が成功閾値を超えたか否かを判定する(S206)。ここで、ステップS206の判定において、成功値が成功閾値を超えている場合には、フィードバック制御部118は、基準線の傾きαの値に所定の調整値を加算することにより、基準線の傾きαの値を調整する。そして、フィードバック制御部118は、この場合フィードバック判定の結果をTrueとする(S210)。
一方、ステップS206の判定において、成功値が成功閾値を超えない場合、即ち、成功値も失敗値も共に所定の閾値を超えない場合には、フィードバック制御部118は、基準線の傾きαの値の調整を行わず、フィードバック判定の結果をFalseとする。
再び図2に戻って説明を続ける。ステップS126のフィードバック判定処理により、フィードバック判定結果が出力されるが、次にフィードバック制御部118は、出力されたフィードバック判定結果がTrueであるか否かを判定する(S128)。ステップS128の判定において、フィードバック判定結果がTrueである場合には、即ち、基準線の傾きαの値の調整が行われたことを示すため、再びステップS116の抽出基準の決定処理に戻る。一方、ステップS128の判定において、フィードバック判定結果がTrueでない場合には、情報処理装置100は、シリーズ識別名抽出処理を終了する。
<適用例>
次に、本実施形態に係る情報処理装置100によるシリーズ識別名抽出の他の例について、図5〜8を参照しながら例示する。図5は、日本語のタイトル“凡才てれびくんMIN ▽ナンダミー賞 ギャラ部門”を解析して得られた序数と評価値とがマッピングされた座標平面の他の一例を示す説明図である。図6は、日本語のタイトル“アニメ せんまいざむらい「ぼうしちゃんの家出」「高い棟にはご用心」”を解析して得られた序数と評価値とがマッピングされた座標平面の他の一例を示す説明図である。図7は、英語のタイトル“The MacGvyer(2)Golden Triangle”を解析して得られた序数と評価値とがマッピングされた座標平面の一例を示す説明図である。図8は、図7と同じタイトルを3gramを用いて解析して得られた序数と評価値とがマッピングされた座標平面の一例を示す説明図である。
まず、タイトル取得部102が、タイトル文字列として“凡才てれびくんMIN ▽ナンダミー賞 ギャラ部門”を取得した場合のシリーズ識別名抽出の例について説明する。なお、以下の説明中において、処理の詳細な内容は上記と同様であるため説明を省略し、シリーズ識別名抽出処理の過程において算出された各パラメータの値と結果とについて主に説明をする。
タイトル文字列“凡才てれびくんMIN ▽ナンダミー賞 ギャラ部門”をタイトル解析部104が解析すると、タイトル文字列は、次のように複数のトークンに分けられる。“凡才/てれびくん/MIN/▽/ナンダミー/賞/ギャラ/部門”評価値算出部106により算出された、かかるトークンの文字列長に基づいた文字列長数列は次のようになる。{2,5,3,1,5,1,3,2}この文字列長数列から、評価値算出部106がノイズ除去処理を行うと、次の文字列長数列が得られる。{2,5,3,5,3,2}かかる文字列長数列に評価値算出部106が重み係数を用いて重み付けを実行すると、評価値数列{64,80,24,20,6,2}が得られる。
この評価値数列から、マッピング部108がトークン点をマッピングした座標平面が図5に示される。図5に示す座標平面は、6つのトークン点を含む。トークン「凡才」と対応するトークン点21の座標は、(1,64)である。トークン「てれびくん」と対応するトークン点22の座標は、(2,80)である。トークン「MIN」と対応するトークン点23の座標は、(3,24)である。トークン「ナンダミー」と対応するトークン点24の座標は、(4,20)である。トークン「ギャラ」と対応するトークン点25の座標は、(5,6)である。トークン「部門」と対応するトークン点26の座標は、(6,2)である。
このとき、基準点252の座標は(3,41)となり、基準線202はy=x+38の式で示される線となる。このとき、上記と同様に各トークン点が抽出基準と適合するか否かが判定され、トークン点21とトークン点22とが抽出される。結果として、シリーズ識別名は「凡才てれびくん」となる。
次に、タイトル取得部102が、タイトル文字列として“アニメ せんまいざむらい「ぼうしちゃんの家出」「高い棟にはご用心」”を取得した場合のシリーズ識別名抽出の例について説明する。タイトル文字列“アニメ せんまいざむらい「ぼうしちゃんの家出」「高い棟にはご用心」”をタイトル解析部104が解析すると、タイトル文字列は、次のように複数のトークンに分けられる。“アニメ/せんまいざむらい/ぼうしちゃんの/家出/高/い/棟/にはご/用心”評価値算出部106により算出された、かかるトークンの文字列長に基づいた文字列長数列は次のようになる。{3,8,7,2,1,1,1,3,2}この文字列長数列から、評価値算出部106がノイズ除去処理を行うと、次の文字列長数列が得られる。{3,8,7,2,3,2}かかる文字列長数列に評価値算出部106が重み係数を用いて重み付けを実行すると、評価値数列{96,128,56,8,6,2}が得られる。
この評価値数列から、マッピング部108がトークン点をマッピングした座標平面が図6に示される。図6に示す座標平面は、6つのトークン点を含む。トークン「アニメ」と対応するトークン点31の座標は、(1,96)である。トークン「せんまいざむらい」と対応するトークン点32の座標は、(2,128)である。トークン「ぼうしちゃんの」と対応するトークン点33の座標は、(3,56)である。トークン「家出」と対応するトークン点34の座標は、(4,8)である。トークン「にはご」と対応するトークン点25の座標は、(5,6)である。トークン「用心」と対応するトークン点36の座標は、(6,2)である。
このとき、基準点253の座標は(3,65)となり、基準線203はy=x+62の式で示される線となる。このとき、上記と同様に各トークン点が抽出基準と適合するか否かが判定され、トークン点31とトークン点32とが抽出される。結果として、シリーズ識別名は「アニメせんまいざむらい」となる。
次に、タイトル取得部102が、タイトル文字列として“The MacGvyer(2)Golden Triangle”を取得した場合のシリーズ識別名抽出の例について説明する。タイトル文字列“The MacGvyer(2)Golden Triangle”をタイトル解析部104が解析すると、タイトル文字列は、次のように複数のトークンに分けられる。“The/MacGvyer/2/Golden/Triangle”評価値算出部106により算出された、かかるトークンの文字列長に基づいた文字列長数列は次のようになる。{3,8,1,6,8}この文字列長数列から、評価値算出部106がノイズ除去処理を行うと、次の文字列長数列が得られる。{3,8,6,8}かかる文字列長数列に評価値算出部106が重み係数を用いて重み付けを実行すると、評価値数列{24,32,12,8}が得られる。
この評価値数列から、マッピング部108がトークン点をマッピングした座標平面が図7に示される。図7に示す座標平面は、4つのトークン点を含む。トークン「The」と対応するトークン点41の座標は、(1,24)である。トークン「MacGvyer」と対応するトークン点42の座標は、(2,32)である。トークン「Golden」と対応するトークン点43の座標は、(3,12)である。トークン「Triangle」と対応するトークン点44の座標は、(4,8)である。
このとき、基準点254の座標は(2,20)となり、基準線204はy=x+18の式で示される線となる。このとき、上記と同様に各トークン点が抽出基準と適合するか否かが判定され、トークン点41とトークン点42とが抽出される。結果として、シリーズ識別名は「TheBacGvyer」となる。
次に、タイトル取得部102が、タイトル文字列として“The MacGvyer(2)Golden Triangle”を取得し、解析手法として3gramを用いた場合のシリーズ識別名抽出の例について説明する。タイトル文字列“The MacGvyer(2)Golden Triangle”をタイトル解析部104が3gramにより解析すると、タイトル文字列は、次のように複数のトークンに分けられる。“The/heM/eMa/Mac/acG/cGv/Gvy/vye/yer”評価値算出部106により算出された、かかるトークンの文字列長に基づいた文字列長数列は次のようになる。{3,3,3,3,3,3,3,3,3,1}この文字列長数列から、評価値算出部106がノイズ除去処理を行うと、次の文字列長数列が得られる。{3,3,3,3,3,3,3,3,3}かかる文字列長数列に評価値算出部106が重み係数を用いて重み付けを実行すると、評価値数列{768,384,192,96,48,24,12,6,3}が得られる。
この評価値数列から、マッピング部108がトークン点をマッピングした座標平面が図8に示される。図8に示す座標平面は、9つのトークン点を含む。トークン「The」と対応するトークン点51の座標は、(1,768)である。トークン「heM」と対応するトークン点52の座標は、(2,384)である。トークン「eMa」と対応するトークン点53の座標は、(3,192)である。トークン「Mac」と対応するトークン点54の座標は、(4,96)である。トークン「acG」と対応するトークン点55の座標は、(5,48)である。トークン「cGv」と対応するトークン点56の座標は、(6,24)である。トークン「Gvy」と対応するトークン点57の座標は、(7,12)である。トークン「vye」
と対応するトークン点58の座標は、(8,6)である。トークン「yer」と対応するトークン点59の座標は、(9,3)である。
このとき、基準点255の座標は(4,385)となり、基準線はy=x+381の式で示される線となる。このとき、上記と同様に各トークン点が抽出基準と適合するか否かが判定され、トークン点51とトークン点52とが抽出される。結果として、シリーズ識別名は「TheheM」となる。
<効果の例>
以上説明してきたように、本発明の一実施形態に係る情報処理装置100によれば、コンテンツのタイトル文字列から、シリーズを識別するためのシリーズ識別名を抽出することができる。このとき、コンテンツのタイトル文字列を解析することにより、複数のトークンに分割する。そして、トークンそれぞれについて、文字列長と序数とに基づいて評価値が算出され、かかる評価値に基づいてシリーズ識別名の一部として抽出するトークンを決定する。そして、抽出されたトークンを連結することによりシリーズ識別名は生成される。つまり、文字列長の長いトークンほど評価値の値は大きくなり、さらに、タイトル文字列中の先頭近くに位置するトークンほど評価値の値は大きくなる。このため、文字列長が長く先頭に近い位置のトークンほどシリーズ識別名の一部として採用されやすくなる。シリーズ名は、タイトル文字列中の先頭に近い位置に挿入される場合が多いため、シリーズを表す文字列を抽出しやすくなる効果がある。このとき、シリーズ識別名の抽出においては例えば辞書などの先見知識を必要としないため、先見知識の更新を考慮する必要がなく、また、異なる言語に適用する場合であっても新たに先見知識を準備する必要がないという効果がある。
さらに、抽出基準となる基準線の傾きαの値のフィードバックを行う構成を有するため、自動的に抽出基準を適した数値に調整することができる。かかる値は、言語により異なる可能性があるが、数値の調整をするのみで対応することができ、従来、先見知識の準備を行ったり、プログラムそのものを言語毎に準備する必要がなく好適である。
なお、上記実施形態において説明した情報処理装置100の各部の機能は、実際には、図示しないCPU(Central Processing Unit)などの演算装置がこれらの機能を実現する処理手順を記述した制御プログラムを記憶したROM(Read Only Memory)やRAM(Random Access Memory)などの記憶媒体から制御プログラムを読出し、そのプログラムを解釈して実行することにより達成される。例えば、上記実施形態に係る情報処理装置100においては、タイトル取得部102、タイトル解析部104、評価値算出部106、マッピング部108、抽出基準設定部110、抽出部112、識別名生成部114、およびフィードバック制御部118の各機能は、実際には、CPUがこれらの機能を実現する処理手順を記述したプログラムを実行することにより達成される。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
例えば、上記実施形態では、フィードバック制御部は、基準線の傾きの値に所定の調整値を加算する、または基準線の傾きの値から所定の調整値を減算することにより基準線の傾きの値を調整することとしたが、本発明はかかる例に限定されない。例えば、フィードバック制御部は、基準線の傾きの値を所定の調整値で乗算する、または基準線の傾きの値を所定の調整値で除算することにより基準線の傾きの値を調整してもよい。
また、例えば、上記実施形態では、フィードバック制御部は、成否情報に基づいて成功値と失敗値とを用い、成功値が所定の成功閾値を超えた場合、または、失敗値が所定の失敗閾値を超えた場合に、基準線の傾きの値を調整することとしたが、本発明はかかる例に限定されない。例えば、フィードバック制御部は、成否情報がある一定回数以上連続して抽出成功を示した場合、または、成否情報がある一定回数以上連続して抽出失敗を示した場合に、基準線の傾きの値を調整してもよい。
尚、本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的に又は個別的に実行される処理をも含む。また時系列的に処理されるステップでも、場合によっては適宜順序を変更することが可能であることは言うまでもない。
100 情報処理装置
102 タイトル取得部
104 タイトル解析部
106 評価値算出部
108 マッピング部
110 抽出基準決定部
112 抽出部
114 識別名生成部
116 識別名出力部
118 フィードバック制御部
120 メモリ部

Claims (14)

  1. コンテンツのタイトルを示すタイトル文字列を取得するタイトル取得部と、
    前記タイトル取得部により取得されたタイトル文字列を解析し、前記タイトル文字列を複数のトークンに分割するタイトル解析部と、
    前記複数のトークンのそれぞれについて、該トークンの文字列長に基づき、前記タイトル文字列中の該トークンの位置に応じて重みづけされた評価値を算出する評価値算出部と、
    前記複数のトークンのそれぞれについて、前記タイトル文字列中のトークンの位置を示す序数の値と前記評価値とにより位置が示されるトークン点を座標平面上にマッピングするマッピング部と、
    前記マッピング部により前記座標平面上にマッピングされた前記トークン点の座標に基づいて、前記タイトルからシリーズを識別する識別名を抽出するための基準となる基準点の座標と該基準点に基づいた抽出基準とを決定する抽出基準決定部と、
    前記トークン点のうち前記抽出基準に適合するトークン点を抽出する抽出部と、
    前記抽出部により抽出されたトークン点に対応づけられているトークンに含まれる前記タイトル文字列から前記識別名を生成する識別名生成部と、
    を備える、情報処理装置。
  2. 前記抽出基準決定部は、前記座標平面上の前記基準点を通り所定の傾きを有する基準線と前記トークン点の座標との位置関係に基づいた前記抽出基準を決定する、請求項1に記載の情報処理装置。
  3. 前記評価値算出部は、前記序数が小さいトークンほど大きな値となる重み係数を用いて前記評価値を重み付けし、
    前記抽出基準決定部は、前記評価値が前記基準線上の点と比較して大きいトークン点を抽出する抽出基準を決定する、請求項2に記載の情報処理装置。
  4. 前記抽出部は、前記抽出基準に適合するトークン点の抽出に成功したか否かを示す成否情報を出力し、
    前記抽出部から受信した前記成否情報に基づいて、前記基準線の傾きの値を調整するフィードバック制御部、
    をさらに備える、請求項1〜3のいずれか1項に記載の情報処理装置。
  5. 前記抽出部は、前記抽出基準に適合するトークン点の数が、所定の成否判定値よりも小さい場合に、前記トークン点の抽出に失敗したと判定する、請求項4に記載の情報処理装置。
  6. 前記フィードバック制御部は、前記基準線の傾きの値に所定の調整値を加算する、または減算することにより前記基準線の傾きの値を調整する、請求項4または5のいずれかに記載の情報処理装置。
  7. 前記フィードバック制御部は、前記基準線の傾きの値を所定の調整値で乗算する、または除算することにより前記基準線の傾きの値を調整する、請求項4または5のいずれかに記載の情報処理装置。
  8. 前記フィードバック制御部は、前記抽出部から受信した前記成否情報が抽出成功を示した回数及び前記成否情報が抽出失敗を示した回数にそれぞれ応じて成功値と失敗値とを増減させ、前記成功値が所定の成功閾値を超えた場合、または、前記失敗値が所定の失敗閾値を超えた場合に、前記基準線の傾きの値を調整する、請求項4〜7のいずれか1項に記載の情報処理装置。
  9. 前記フィードバック制御部は、前記抽出部から受信した前記成否情報がある一定回数以上連続して抽出成功を示した場合、または、前記成否情報がある一定回数以上連続して抽出失敗を示した場合に、前記基準線の傾きの値を調整する、請求項4〜7のいずれか1項に記載の情報処理装置。
  10. 前記フィードバック制御部は、前記調整の結果前記基準線の傾きの値が所定の傾き範囲を超えた場合に前記基準線の傾きの値を所定の初期値にする、請求項4〜9のいずれか1項に記載の情報処理装置。
  11. 前記評価値算出部は、前記トークンの文字列長が所定の最低文字列長よりも短い場合には、前記評価値を算出せず該トークンを抽出対象から外す、請求項1〜10のいずれか1項に記載の情報処理装置。
  12. 前記タイトル解析部は、前記解析の結果生成されたトークンの数が所定の最低トークン数未満であった場合には、前記生成されたトークンを前記識別名生成部に出力し、
    前記識別名生成部は、前記タイトル解析部から入力されたトークンを結合することにより前記識別名を生成する、請求項1〜11のいずれか1項に記載の情報処理装置。
  13. 情報処理装置の有する
    タイトル取得部が、コンテンツのタイトルを示すタイトル文字列を取得するステップと、
    タイトル解析部が、前記タイトル取得部により取得されたタイトル文字列を解析し、前記タイトル文字列を複数のトークンに分割するステップと、
    評価値算出部が、前記複数のトークンのそれぞれについて、該トークンの文字列長に基づき、前記タイトル文字列中の該トークンの位置に応じて重みづけされた評価値を算出するステップと、
    マッピング部が、前記複数のトークンのそれぞれについて、前記タイトル文字列中のトークンの位置を示す序数の値と前記評価値とにより位置が示されるトークン点を座標平面上にマッピングするステップと、
    抽出基準決定部が、前記マッピング部により前記座標平面上にマッピングされた前記トークン点の座標に基づいて、前記タイトルからシリーズを識別する識別名を抽出するための基準となる基準点の座標と該基準点に基づいた抽出基準とを決定するステップと、
    抽出部が、前記トークン点のうち前記抽出基準に適合するトークン点を抽出するステップと、
    識別名生成部が、前記抽出部により抽出されたトークン点に対応づけられているトークンに含まれる前記タイトル文字列から前記識別名を生成するステップと、
    を含む、情報処理方法。
  14. コンテンツのタイトルを示すタイトル文字列を取得する処理と、
    前記タイトル取得部により取得されたタイトル文字列を解析し、前記タイトル文字列を複数のトークンに分割する処理と、
    前記複数のトークンのそれぞれについて、該トークンの文字列長に基づき、前記タイトル文字列中の該トークンの位置に応じて重みづけされた評価値を算出する処理と、
    前記複数のトークンのそれぞれについて、前記タイトル文字列中のトークンの位置を示す序数の値と前記評価値とにより位置が示されるトークン点を座標平面上にマッピングする処理と、
    前記マッピング部により前記座標平面上にマッピングされた前記トークン点の座標に基づいて、前記タイトルからシリーズを識別する識別名を抽出するための基準となる基準点の座標と該基準点に基づいた抽出基準とを決定する処理と、
    前記トークン点のうち前記抽出基準に適合するトークン点を抽出する処理と、
    前記抽出部により抽出されたトークン点に対応づけられているトークンに含まれる前記タイトル文字列から前記識別名を生成する処理と、
    をコンピュータに実行させるためのプログラム。
JP2010024585A 2010-02-05 2010-02-05 情報処理装置、情報処理方法、及びプログラム Withdrawn JP2011164779A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010024585A JP2011164779A (ja) 2010-02-05 2010-02-05 情報処理装置、情報処理方法、及びプログラム
CN2011100332840A CN102147805A (zh) 2010-02-05 2011-01-28 信息处理设备、信息处理方法和程序
US13/016,533 US8700386B2 (en) 2010-02-05 2011-01-28 Information processing apparatus, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010024585A JP2011164779A (ja) 2010-02-05 2010-02-05 情報処理装置、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2011164779A true JP2011164779A (ja) 2011-08-25

Family

ID=44354396

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010024585A Withdrawn JP2011164779A (ja) 2010-02-05 2010-02-05 情報処理装置、情報処理方法、及びプログラム

Country Status (3)

Country Link
US (1) US8700386B2 (ja)
JP (1) JP2011164779A (ja)
CN (1) CN102147805A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018084953A (ja) * 2016-11-24 2018-05-31 ヤフー株式会社 情報解析装置、情報解析システム、情報解析方法、および情報解析プログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160055348A1 (en) * 2014-07-27 2016-02-25 Jerzy Jozef Lewak Double key coding methods of providing fast search, analysis, and data retrieval of encrypted data without decryption
US10367913B2 (en) * 2014-12-29 2019-07-30 DISH Technologies L.L.C. Systems and methods for tracking user behavior using closed caption text

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002027416A (ja) 2000-07-07 2002-01-25 Sharp Corp 番組予約装置
JP4003127B2 (ja) * 2002-12-12 2007-11-07 ソニー株式会社 情報処理装置および情報処理方法、情報処理システム、記録媒体、並びにプログラム
JP4924866B2 (ja) 2006-01-31 2012-04-25 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
EP1930906A1 (en) * 2006-12-08 2008-06-11 Sony Corporation Information processing apparatus, display control processing method and display control processing program
JP4359787B2 (ja) * 2007-07-02 2009-11-04 ソニー株式会社 情報処理装置、コンテンツの評判検索方法およびコンテンツの評判検索システム
JP5173337B2 (ja) * 2007-09-18 2013-04-03 Kddi株式会社 要約コンテンツ生成装置およびコンピュータプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018084953A (ja) * 2016-11-24 2018-05-31 ヤフー株式会社 情報解析装置、情報解析システム、情報解析方法、および情報解析プログラム

Also Published As

Publication number Publication date
US20110196669A1 (en) 2011-08-11
US8700386B2 (en) 2014-04-15
CN102147805A (zh) 2011-08-10

Similar Documents

Publication Publication Date Title
JP4637181B2 (ja) 文書構造に基づいた検索結果の表示
CN107220098B (zh) 规则引擎的实现方法及装置
US10002296B2 (en) Video classification method and apparatus
CN107566906B (zh) 一种视频评论处理方法及装置
US20110202530A1 (en) Information processing device, method and program
US11641438B2 (en) Systems and methods for rendering a secure document with a text selection capability
CN106156098B (zh) 一种纠错对挖掘方法及系统
US20150104065A1 (en) Apparatus and method for recognizing object in image
JP2010123000A (ja) Webページグループ抽出方法及び装置及びプログラム
CN106156794B (zh) 基于文字风格识别的文字识别方法及装置
Posadas-Duran et al. Complete syntactic n-grams as style markers for authorship attribution
CN107577943B (zh) 基于机器学习的样本预测方法、装置及服务器
JP2011164779A (ja) 情報処理装置、情報処理方法、及びプログラム
US9298694B2 (en) Generating a regular expression for entity extraction
US9984065B2 (en) Optimizing generation of a regular expression
JP6760987B2 (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム
CN110855635A (zh) Url识别方法、装置及数据处理设备
Nguyen-Hoang et al. Genre-oriented web content extraction with deep convolutional neural networks and statistical methods
JP2012185654A (ja) 翻訳装置、翻訳プログラムおよび翻訳方法
JP2019144823A (ja) 情報取得プログラム、情報取得方法及び情報取得装置
JP2004341948A (ja) 概念抽出システム、概念抽出方法、プログラム及び記憶媒体
CN104391859B (zh) 一种向用户提供对象信息的方法和装置
US20160078025A1 (en) Search support apparatus and method
CN107436895B (zh) 一种非结构化数据识别的方法和装置
US9842112B1 (en) System and method for identifying fields in a file using examples in the file received from a user

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20130507