JP2017182275A - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP2017182275A
JP2017182275A JP2016065744A JP2016065744A JP2017182275A JP 2017182275 A JP2017182275 A JP 2017182275A JP 2016065744 A JP2016065744 A JP 2016065744A JP 2016065744 A JP2016065744 A JP 2016065744A JP 2017182275 A JP2017182275 A JP 2017182275A
Authority
JP
Japan
Prior art keywords
scoring
content
information processing
user
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016065744A
Other languages
English (en)
Inventor
麗子 桐原
Reiko Kirihara
麗子 桐原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2016065744A priority Critical patent/JP2017182275A/ja
Priority to CN201780007452.4A priority patent/CN108780456A/zh
Priority to PCT/JP2017/001866 priority patent/WO2017168985A1/ja
Priority to US16/069,072 priority patent/US20190035420A1/en
Publication of JP2017182275A publication Critical patent/JP2017182275A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • G06F16/637Administration of user profiles, e.g. generation, initialization, adaptation or distribution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】情報処理装置、情報処理方法、及びプログラムを提供する。【解決手段】複数のコンテンツを含むコンテンツリストに含まれるコンテンツに対する、ユーザによる曖昧な音声評価に基づいてスコアリングを行うスコアリング部と、前記スコアリングの結果に基づいて、前記コンテンツリストからコンテンツを選択するコンテンツ選択部と、を備える情報処理装置。【選択図】図1

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。
近年、ユーザから情報処理装置への入力方法の一つとして、音声認識技術に基づく音声入力が用いられている。例えば、特許文献1には、音声認識技術に基づく音声入力が可能な情報処理装置において、情報処理装置による音声認識結果を示すフィードバック情報をユーザに出力する技術が記載されている。
また、複数のユーザにより用いられる装置やサービス等において、各ユーザにより適した処理を行う個人化技術が研究されている。例えば、ユーザによる操作、選択、視聴等の履歴に基づいて、当該ユーザにより適したコンテンツを提供する技術がある。
特開2011−209786号公報
しかし、上記のような個人化技術では、操作、選択、視聴等の履歴が少ない場合には、ユーザに適したコンテンツを提供できない恐れがあるが、操作、選択、視聴等を何度も行わせることはユーザへの負担が大きかった。
そこで、本開示では、ユーザへの負担を軽減させつつ、ユーザに適したコンテンツを提供することが可能な、新規かつ改良された情報処理装置、情報処理方法、及びプログラムを提案する。
本開示によれば、複数のコンテンツを含むコンテンツリストに含まれるコンテンツに対する、ユーザによる曖昧な音声評価に基づいてスコアリングを行うスコアリング部と、前記スコアリングの結果に基づいて、前記コンテンツリストからコンテンツを選択するコンテンツ選択部と、を備える情報処理装置が提供される。
また、本開示によれば、複数のコンテンツを含むコンテンツリストに含まれるコンテンツに対する、ユーザによる曖昧な音声評価に基づいてスコアリングを行うことと、前記スコアリングの結果に基づいて、前記コンテンツリストからコンテンツを選択することと、を含む情報処理方法が提供される。
また、本開示によれば、コンピュータに、複数のコンテンツを含むコンテンツリストに含まれるコンテンツに対する、ユーザによる曖昧な音声評価に基づいてスコアリングを行う機能と、前記スコアリングの結果に基づいて、前記コンテンツリストからコンテンツを選択する機能と、を実現させるための、プログラムが提供される。
以上説明したように本開示によれば、ユーザへの負担を軽減させつつ、ユーザに適したコンテンツを提供することが可能である。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係る情報処理装置の概要を説明するための説明図である。 同実施形態による情報処理装置1の構成の一例を示すブロック図である。 同実施形態による情報処理装置1の処理フローの一例を示すフローチャート図である。 同実施形態に係るスコアリング部104によるスコアリングの処理フローの一例を示すフローチャート図である。 同実施形態によるユーザとの対話動作の具体例を示す説明図である。 スコアリング部104が同一コンテンツに対して再度スコアリングを行う変形例による情報処理装置1の処理フローの一例を示すフローチャート図である。 同変形例に係るスコアリング処理のフローの一例を示すフローチャート図である。 同変形例によるユーザとの対話動作の具体例を示す説明図である。 出力制御部106がユーザに音声評価を促す変形例による情報処理装置1の処理フローの一例を示すフローチャート図である。 ハードウェア構成例を示す説明図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
<<1.概要>>
<<2.構成例>>
<<3.動作>>
<3−1.処理フロー>
<3−2.具体例>
<<4.変形例>>
<4−1.変形例1>
<4−2.変形例2>
<4−3.変形例3>
<4−4.変形例4>
<4−5.変形例5>
<4−6.変形例6>
<4−7.変形例7>
<4−8.変形例8>
<<5.ハードウェア構成例>>
<<6.むすび>>
<<1.概要>>
複数のユーザにより用いられる装置やサービス等において、各ユーザにより適した(個人化された)処理を行う個人化技術が知られている。例えば、ユーザによる操作、選択、視聴等の履歴に基づいて、当該ユーザにより適したコンテンツ(音楽、映像、情報、アプリケーション等)を提供、または推薦することが可能である。
しかし、操作、選択、視聴等の履歴が少ない場合には、ユーザに適したコンテンツを提供できない恐れがあるが、操作、選択、視聴等を何度も行わせることはユーザへの負担が大きい。
また、個人化技術により提供されたコンテンツに対してユーザが満足したかどうかを評価するため、例えばコンテンツに対するユーザのアクション(例えばコンテンツの再生、停止、スキップ等)から判断することが考えられるが、高精度な評価は困難である。
さらに、ユーザの嗜好は、ユーザの内的/外的状態や、時間経過等により変化する場合があるため、個人化の結果とユーザの嗜好との不一致が発生し、個人化技術が機能していないとユーザに受け取られてしまう恐れもある。
そこで、上記事情を一着眼点にして本実施形態を創作するに至った。本実施形態によれば、コンテンツに対するユーザによる音声評価に基づいて、スコアリング(スコア付け)を行い、コンテンツを選択することで、ユーザへの負担を軽減させつつ、ユーザに適したコンテンツを提供することが可能である。以下、このような効果を有する本実施形態に係る情報処理装置の概要について、図1を参照して説明する。
図1は、本開示の一実施形態に係る情報処理装置の概要を説明するための説明図である。図1に示す情報処理装置1は、周囲のユーザUを検出し、検出されたユーザUにコンテンツを提供する。情報処理装置1がユーザに提供するコンテンツは特に限定されないが、例えば図1に示すコンテンツC10のように楽曲であってもよい。
情報処理装置1は、例えばユーザUに応じた複数のコンテンツ(ユーザUに適したコンテンツの候補)を含むコンテンツリストを生成し、当該コンテンツリストに含まれるコンテンツを順次、試聴再生(コンテンツの一部を提供)する。図1に示す例において、情報処理装置1は、コンテンツC10を試聴再生し、コンテンツC10に対し、ユーザUは、スコアリングに繋がる音声評価W10を発話している。
また、情報処理装置1は、ユーザUが発話したスコアリングに繋がる音声評価W10に基づいて、コンテンツC10のスコアリングを行い、スコアリングの結果(例えばスコア)に基づいて、コンテンツリストからコンテンツを選択する。選択されたコンテンツは、例えば、最初から最後まで提供(本再生)されてもよい。
係る構成によれば、例えば図1の音声評価W10のような曖昧な音声評価によるコンテンツの選択が可能であるため、ユーザへの負担を軽減させつつ、ユーザに適したコンテンツを提供することが可能である。
また、情報処理装置1の外観は特に限定しないが、例えば図1に示すような円柱形状であってもよく、部屋の床やテーブルの上等に設置される。また、情報処理装置1には、LED(Light Emitting Diode)等の発光素子により形成された発光部18が側面の水平方向中央領域を囲むよう帯状に設けられている。情報処理装置1は、発光部18の全体を光らせたり、一部を光らせたりすることで、ユーザに対して情報処理装置1の状態を知らせることが可能である。例えば情報処理装置1は、ユーザと対話している際は発光部18においてユーザの方向すなわち発話者方向を一部光らせることで、図1に示すように対話中のユーザUに視線を向けているように見せることができる。また、情報処理装置1は、応答生成中やデータ検索中は発光部18で光が側面上を回っているように制御することで、処理中であることをユーザに知らせることができる。また、情報処理装置1は、例えば図1に示すように壁80に画像を投影して表示する機能を有し、音声による出力の他、表示による出力が可能である。
例えば、情報処理装置1は、上記のスコアリングの結果(スコアリング結果)を出力する。図1に示す例では、情報処理装置1は、コンテンツC10に係るスコアリング結果D10を壁80に投影(出力)している。
係る構成により、ユーザUは曖昧な音声評価によりスコアリングされることがわかり、個人化技術が機能していることを実感することができる。また、曖昧な音声評価によりスコアリングされることをユーザUが理解することで、個人化の性能を向上させるためにユーザUが自発的に音声評価しやすくなるという効果がある。
以上、本開示による情報処理装置1の概要について説明した。なお、情報処理装置1の形状は図1に示す円柱形状に限定されず、例えば立方体、球体、多面体等であってもよい。続いて、本開示の一実施形態による情報処理装置1の構成例について詳細に説明する。
<<2.構成例>>
図2は、本実施形態による情報処理装置1の構成の一例を示すブロック図である。図2に示すように、情報処理装置1は、制御部10、通信部11、収音部12、スピーカ13、カメラ14、測距センサ15、投影部16、記憶部17、及び発光部18を有する。
制御部10は、情報処理装置1の各構成を制御する。また、制御部10は、図2に示すように、ユーザ認識部101、コンテンツリスト管理部102、音声認識部103、スコアリング部104、コンテンツ選択部105、及び出力制御部106としても機能する。
ユーザ認識部101は、情報処理装置1の周囲に存在するユーザの検出と識別を行う。例えば、ユーザ認識部101は、カメラ14により取得される画像、及び測距センサ15により取得される距離に基づき、周知の顔検出技術、人物検出技術等を用いて、ユーザの検出を行う。また、ユーザ認識部101は、カメラ14により取得される画像に基づき、周知の顔認識技術等を用いて、ユーザの識別を行う。
例えば、ユーザ認識部101は、記憶部17に記憶される既知のユーザの識別情報と、画像において検出されたユーザから抽出される情報とのマッチングにより、ユーザの識別を行ってもよい。また、ユーザ認識部101は、識別されたユーザの識別情報をコンテンツリスト管理部102に提供してもよい。
コンテンツリスト管理部102は、ユーザ認識部101により識別されたユーザに応じた複数のコンテンツ(ユーザUに適したコンテンツの候補)を含むコンテンツリストの管理を行う。コンテンツリスト管理部102は、後述するスコアリング部104によるスコアリング結果に基づいて、コンテンツリストを管理してもよい。係る構成により、コンテンツリストは、ユーザの嗜好に基づいたものとなる。
例えば、コンテンツリスト管理部102は、後述するスコアリング部104によるスコアリング結果に基づいて、コンテンツリストの生成、または更新を行う。過去に当該ユーザの音声評価に基づいて高いスコアがつけられた(スコアリングされた)コンテンツ、及び当該コンテンツに類似したコンテンツが含まれるように、コンテンツリストが生成されてもよい。係る構成により、生成されるコンテンツリストに、各ユーザにより適したコンテンツが含まれる。
また、コンテンツリスト管理部102は、スコアリング部104により、あるコンテンツに対して、所定の閾値よりも高いスコアがつけられた場合に、当該コンテンツに類似したコンテンツが含まれるようにコンテンツリストを更新してもよい。また、コンテンツリスト管理部102は、スコアリング部104により、あるコンテンツに対して、所定の閾値よりも低いスコアがつけられた場合に、当該コンテンツに類似したコンテンツが含まれないようにコンテンツリストを更新してもよい。係る構成により、スコアリング部104がスコアリングを行うに応じて、コンテンツリストに各ユーザにより適したコンテンツが含まれる。
音声認識部103は、後述する収音部12により収音されたユーザの音声(例えば、コンテンツに対するユーザによる音声評価)を認識し、文字列への変換を行い、発話テキストを取得する。なお、音声認識部103は、音声の特徴に基づいて声を出している人を識別したり、音声の発生源、すなわち発話者の方向を推定したりしてもよい。また、音声認識部103は、ユーザにより音声(例えば音声評価)が発話されているか否かを判定してもよい。
スコアリング部104は、コンテンツに対するユーザによる音声評価に基づいて音声認識部103が取得した発話テキストに基づき、当該コンテンツのスコアリング(スコア付け)を行う。スコアリング部104は、様々な方法によりスコアリングを行ってもよい。以下では、スコアリング部104によるいくつかのスコアリング例を説明する。
スコアリング部104は、音声認識部103が取得した発話テキストから、スコアを示すスコア文言を検出し、スコア文言に基づいてスコアリングを行ってもよい。以下に示す表1は、スコア文言によるスコアリングの例を示す表である。
Figure 2017182275
係る場合、例えば音声評価に基づく発話テキストは発話例P1のように、「80点」というスコアを示すスコア文言そのものであってもよいし、発話例P2、P3のように、「100点」や「50点」等のスコア文言以外の語を含んでいてもよい。
係る構成によれば、よりユーザの意思をより正確に表したスコアリングを行うことが可能となる。
また、スコアリング部104は、コンテンツに対するユーザによる曖昧な音声評価に基づいて、当該コンテンツのスコアリング(スコア付け)を行ってもよい。曖昧な音声評価とは、例えば直接的にスコアを表現していない(上記のようなスコア文言を含まない)内容の発話であってもよい。
例えば、スコアリング部104は、コンテンツに対するユーザによる音声評価に基づいて音声認識部103が取得した発話テキストから、スコアと対応付けられた所定文言を検出し、当該所定文言に基づいてスコアリングを行ってもよい。例えば、スコアと所定文言の対応は、後述する記憶部17に記憶されていてもよい。以下に示す表2は、スコア文言によるスコアリングの例を示す表である。
Figure 2017182275
係る構成によれば、例えばユーザがスコアを自身で明確に表現することを好まない場合であっても、表2に示す発話例F1〜F7のような所定文言の発話により、スコアリングを行うことが可能となる。
また、スコアリング部104は、自然発話の意味解析に基づいて、音声評価を行ってもよい。以下に示す表3は、自然発話の意味解析によるスコアリングの例を示す表である。
Figure 2017182275
係る構成によれば、表3に示す発話例N1〜N5のように、表2に示した発話例F1〜F7よりも自由な発話により、スコアリングを行うことが可能である。なお、表3による発話例N5は、表2に示す発話例F6と同一であるが、発話例F6からの所定文言の検出に基づいてスコアリングされてもよいし、発話例F6が自然発話として意味解析されてスコアリングされてもよい。
また、スコアリング部104が自然発話の意味解析によるスコアリングを行う場合、例えばスコアリング部104は、コンテンツに対するユーザによる音声評価に基づいて音声認識部103が取得した発話テキストの形態素解析を行ってもよい。さらに、スコアリング部104は、形態素解析結果に基づいて、スコアリングを行ってもよい。以下に示す表4〜表8は、それぞれ上記の表3に示した発話例N1〜N5の形態素解析結果を示す表である。
Figure 2017182275
Figure 2017182275
Figure 2017182275
Figure 2017182275
Figure 2017182275
なお、上記の形態素解析結果を用いたスコアリングの具体的な処理については、図4を参照して後述する。
図2に示すコンテンツ選択部105は、スコアリング部104によるスコアリングの結果に基づいて、コンテンツリストからコンテンツを選択する。例えば、コンテンツ選択部105は、コンテンツリストのうち、所定値よりも高いスコアが付けられたコンテンツを選択してもよい。また、コンテンツ選択部105は、スコアリング部104によりコンテンツに対してスコアリングが行われた場合に、当該コンテンツのスコアが所定値よりも高い場合に、当該コンテンツを選択してもよい。また、コンテンツ選択部105は、コンテンツリストのうち、所定値よりも高いスコアが付けられたコンテンツと類似するコンテンツを選択してもよい。
なお、例えばコンテンツに対応付けられたジャンルや制作者等の情報が同一であるコンテンツが類似するコンテンツと扱われてもよい。また、例えばコンテンツに対応付けられた価格やその他の情報が類似するコンテンツが、類似するコンテンツと扱われてもよい。なお、上記のようなコンテンツに対応付けられた情報は、例えば後述する記憶部17に記憶されていてもよいし、後述する通信部11を介して外部から取得されてもよい。
出力制御部106は、スピーカ13、投影部16、または発光部18による出力を制御する。例えば、出力制御部106は、コンテンツリスト管理部102により生成されたコンテンツリストに含まれるコンテンツ(例えば楽曲)を、順次出力(例えば試聴再生)してもよい。また、出力制御部106は、コンテンツ選択部105により選択されたコンテンツを、出力(例えば本再生)させてもよい。また、出力制御部106は、情報処理装置1がユーザと対話するための出力を制御してもよい。
また、出力制御部106は、スコアリング部104によるスコアリングの結果を出力させてもよい。出力制御部106は、様々な方法でスコアリングの結果を出力してもよい。例えば、出力制御部106は、投影部16を制御して、図1に示したスコアリング結果D10のような、スコアを示すバー(スコアバー)をスコアリングの結果として表示させてもよい。
係る構成によれば、スコアリング結果が表示されることで、ユーザは自身の音声評価がスコアリングに繋がることがわかり、個人化技術が機能していることを実感することが出来る。また、自身の音声評価がスコアリングに繋がることを把握することで、ユーザがより積極的に音声評価を発話することが期待される。
通信部11は、外部装置とデータの送受信を行う。例えば、通信部11は、不図示の通信網を介して、不図示の所定サーバと接続し、コンテンツや、コンテンツに関連する(対応付けられた)情報を受信してもよい。
収音部12は、周辺の音声を収音し、音声信号として制御部10に出力する機能を有する。また、収音部12は、例えば1または複数のマイクロフォンにより実現されてもよい。
スピーカ13は、出力制御部106の制御に従って音声信号を音声に変換して出力する機能を有する。
カメラ14は、情報処理装置1に設けられた撮像レンズにより周辺を撮像し、撮像画像を制御部10に出力する機能を有する。また、カメラ14は、例えば360度カメラまたは広角カメラ等により実現されてもよい。
測距センサ15は、情報処理装置1とユーザやユーザの周辺に居る人物との距離を測定する機能を有する。測距センサ15は、例えば光センサ(発光・受光タイミングの位相差情報に基づいて対象物までの距離を測定するセンサ)により実現される。
投影部16は、表示装置の一例であって、壁やスクリーンに画像を(拡大して)投影することで表示する機能を有する。
記憶部17は、情報処理装置1の各構成が機能するためのプログラムやパラメータを記憶する。例えば、記憶部17は、ユーザの識別情報などのユーザに係る情報や、コンテンツ、コンテンツに対応付けられた情報、過去のスコアリング結果の情報等を記憶してもよい。
発光部18は、LED等の発光素子により実現され、全灯、一部点灯、点滅、または点灯位置の制御等が可能である。例えば発光部18は、制御部10の制御に従って音声認識部103により認識された発話者の方向を一部点灯することで、発話者の方向に視線を向けているように見せることができる。
以上、本実施形態による情報処理装置1の構成について具体的に説明した。なお、図2に示す情報処理装置1の構成は一例であって、本実施形態はこれに限定されない。例えば、情報処理装置1は、周辺環境に関する情報を取得するために、IR(infrared:赤外線)カメラ、深度カメラ、ステレオカメラ、または人感センサ等をさらに備えていてもよい。また、情報処理装置1は、ユーザインタフェースとして、タッチパネルディスプレイや物理ボタン等をさらに備えていてもよい。また、情報処理装置1に設けられる収音部12、スピーカ13、カメラ14、及び発光部18等の設置位置は特に限定されない。また、本実施形態による制御部10の各機能は、通信部11を介して接続される他の情報処理装置が有してもよい。
<<3.動作>>
続いて、本実施形態による情報処理装置1の動作例について、図3〜5を参照して説明する。まず、図3、4を参照して本実施形態の処理フローを説明し、続いて、図5を参照して本実施形態による対話動作の具体例を説明する。
<3−1.処理フロー>
以下では、図3を参照して、本実施形態の全体的な処理フローを説明し、続いて図4を参照して、スコアリング部104による自然発話の意味解析によるスコアリングの処理フローについて説明する。
図3は本実施形態による情報処理装置1の処理フローの一例を示すフローチャート図である。図3に示すように、まず、ユーザ認識部101が、情報処理装置1の周囲からユーザを検出し、検出されたユーザの認識を行う(S104)。続いて、コンテンツリスト管理部102は、認識されたユーザに係る過去のスコアリング結果に基づいて、複数のコンテンツを含むコンテンツリストを生成する(S108)。
続いて、出力制御部106の制御により、コンテンツリストに含まれるコンテンツが試聴再生(一部出力)される(S112)。所定時間内にユーザによる音声評価が発話されたと音声認識部103により判定された場合(S116においてYES)、音声認識部103は音声評価に基づいて音声認識を行い、発話テキストを取得する(S120)。
続いて、スコアリング部104は、音声認識部103により取得された発話テキストに基づいてスコアリングを行う(S124)。スコアリング部104は、表1〜8を参照して説明したように、スコアを示すスコア文言に基づいてスコアリングしてもよいし、スコアと対応付けられた所定文言に基づいてスコアリングしてもよい。また、スコアリング部104は、図4を参照して後述するように、発話テキストの形態素解析に基づいてスコアリングしてもよい。
続いて、出力制御部106が投影部16を制御し、スコアリングに基づいて例えばスコアリング結果を表示させる(S128)。さらに、ステップS124によりスコアリングされた(特定された)スコアが所定値以上である場合(S132においてYES)、処理はステップS136に進む。ステップS136において、コンテンツ選択部105は、現在試聴再生中のコンテンツを選択し、出力制御部106の制御により当該コンテンツが最初から再生される。
一方、ステップS116において所定時間内に音声評価がない場合、またはステップS132においてスコアが所定値未満である場合(S116においてNO、またはS132においてNO)、処理はステップS134に進む。ステップS134において、コンテンツが一つ次に進められて、処理はステップS112に戻り、次のコンテンツが試聴再生される。
なお、上記のステップS104〜S136のようにしてスコアリングされた結果に基づいて次回のコンテンツリスト生成処理(S108)が行われる(次回のコンテンツリスト生成処理にスコアリング結果が反映される)。
以上、本実施形態の全体的な処理フローを説明した。続いて、図3に示すスコアリング処理(S124)において、スコアリング部104が発話テキストの形態素解析に基づいてスコアリングを行う場合の処理フローについて図4を参照して説明する。図4は、スコアリング部104によるスコアリングの処理フローの一例を示すフローチャート図である。なお、以下では上述した表3〜表8に示した発話例について、具体的なスコア算出例を説明する。
まず、スコアリング部104は、音声認識部103により取得された発話テキストの形態素解析を行う(S1241)。続いて、スコアリング部104は、形態素解析結果に基づき、発話テキストに指示語が含まれるか否かを判定する(S1242)。指示語が含まれる場合(S1242においてYES)、指示語に基づいてスコアリングの対象となるコンテンツが特定され、設定される(S1243)。一方、指示語が含まれない場合(S1242においてNO)、現在試聴再生中のコンテンツが対象に設定される(S1244)。
例えば、表3〜表8に示した発話例において、発話例N1〜N3には「これ」という指示語が含まれるため、現在試聴再生中のコンテンツが対象として設定される。一方、発話例N4、N5には指示語が含まれないため、現在試聴再生中のコンテンツが対象として設定される。
続いて、スコアリング部104は、音声評価がポジティブ評価であるか、ネガティブ評価であるか、を判定する。例えば、スコアリング部104は、発話テキストの形態素解析により品詞が形容詞、または形容動詞と特定された単語に基づいて音声評価がポジティブ評価であるか、ネガティブ評価であるかを判定してもよい。なお、スコアリング部104は、音声評価がポジティブ評価でもネガティブ評価でもない(どちらでもない)評価であると判定してもよい。
例えば、発話例N1には、「好き」という形容動詞と、「ない」という形容詞の組み合わせが含まれるため、発話例N1に係る音声評価はネガティブ評価と判定されてもよい。また、発話例N2には、「好き」という形容動詞が含まれるため、発話例N2に係る音声評価はポジティブ評価と判定されてもよい。また、発話例N3には、「いい」という形容詞が含まれるため、発話例N3に係る音声評価はポジティブ評価と判定されてもよい。また、発話例N4には「まあまあ」という形容動詞が含まれるため、発話例N4に係る音声評価はどちらでもない評価であると判定されてもよい。また、発話例N5には、「嫌い」という形容動詞が含まれるため、発話例N5に係る音声評価はネガティブ評価と判定されてもよい。
続いて、スコアリング部104は、発話テキストの形態素解析により品詞が副詞と特定された単語の評価を行う(S1246)。例えば、ステップS1246において、品詞が副詞と特定された単語の評価を行うことで、スコアリング部104は、後述するステップS1247のスコア算出処理において、用いられる係数を特定してもよい。
例えば、発話例N1には、「あまり」という副詞が含まれるため、発話例N1に係る係数は0.6と特定されてもよい。また、発話例N2には、「わりと」と副詞が含まれるため、発話例N2に係る係数は0.6と特定されてもよい。また、発話例N3〜N5には、副詞が含まれないため、発話例N3〜N5に係る係数は1.0と判定されてもよい。
なお、上記のステップS1245、及びステップS1246における処理は、予め登録された単語とポジティブ/ネガティブ評価、または係数との対応付けに基づいて行われてもよいし、様々な自然言語処理技術により行われてもよい。
続いて、スコアリング部104はステップS1245の判定結果と、ステップS1246で得られた係数に基づいてスコアの算出を行う(S1247)。例えば、スコアリング部104は以下の式(1)のようにスコアを算出してもよい。
スコア=基準スコア+判定スコア×係数 (1)
式(1)において、基準スコアは、例えば「50点」であってもよい。また、判定スコアは、例えばステップS1245の判定に基づく値であり、ステップS1245においてポジティブ評価と判定されれば「+50点」、ネガティブ評価と判定されれば「‐50点」、どちらでもない評価と判定されれば「0点」であってもよい。
例えば、表3〜表8に示した発話例N1〜N5のスコアは、それぞれ以下の式(2)〜(6)のように算出される。
基準スコア(50点)+判定スコア(‐50点)×係数(0.6)=20点 (2)
基準スコア(50点)+判定スコア(50点)×係数(0.6)=80点 (3)
基準スコア(50点)+判定スコア(50点)×係数(1.0)=100点 (4)
基準スコア(50点)+判定スコア(0点)×係数(1.0)=50点 (5)
基準スコア(50点)+判定スコア(‐50点)×係数(1.0)=0点 (6)
<3−2.具体例>
以上、本実施形態の処理フローについて説明した。続いて、本実施形態によるユーザとの対話動作の具体例について図5を参照して説明する。図5は、本実施形態によるユーザとの対話動作の具体例を示す説明図である。
まず、情報処理装置1が、ユーザU向けのコンテンツ(楽曲)を含むコンテンツリストを生成したことをユーザUに伝える発話W21を出力する。続いて、ユーザUがコンテンツリストの試聴再生を望む応答W22を発話すると、情報処理装置1は、コンテンツリストからコンテンツC21の試聴再生を行う。ユーザUがコンテンツC21に対する音声評価W23を発話すると、情報処理装置1は、音声評価W23に基づくスコアリング結果D21を表示する。なお、スコアリング結果D21は、コンテンツC21のスコアが20点であることを示している。
ここで、コンテンツC21のスコアは、図3のステップS132における所定値よりも小さかったため、情報処理装置1は、コンテンツリストから次のコンテンツであるコンテンツC22の試聴再生を行う。ユーザUがコンテンツC22に対する音声評価W24を発話すると、情報処理装置1は、音声評価W24に基づくスコアリング結果D22を表示する。なお、スコアリング結果D22は、コンテンツC22のスコアが80点であることを示している。
ここで、コンテンツC22のスコアは、図3のステップS132における所定値よりも小さかったため、情報処理装置1は、コンテンツリストから次のコンテンツであるコンテンツC23の試聴再生を行う。ユーザUがコンテンツC23に対する音声評価W25を発話すると、情報処理装置1は、音声評価W25に基づくスコアリング結果D23を表示する。なお、スコアリング結果D23は、コンテンツC23のスコアが100点であることを示している。
ここで、コンテンツC23のスコアは、図3のステップS132における所定値以上であったため、情報処理装置1はコンテンツC23を選択し、コンテンツC23を最初から本再生(出力)することを伝える発話W26を出力する。
以上、本実施形態によるユーザとの対話動作の具体例について説明したが、本実施形態によるユーザとの対話動作は、上記に限定されず、ユーザやコンテンツ等に応じて多様な対話動作が行われることは言うまでもない。
<<4.変形例>>
以上、本開示の一実施形態を説明した。以下では、本開示の一実施形態の幾つかの変形例を説明する。なお、以下に説明する各変形例は、単独で本開示の実施形態に適用されてもよいし、組み合わせで本開示の実施形態に適用されてもよい。また、各変形例は、本開示の実施形態で説明した構成に代えて適用されてもよいし、本開示の実施形態で説明した構成に対して追加的に適用されてもよい。
<4−1.変形例1>
上記では、図3のステップS132においてスコアが所定値以上であった場合に現在試聴再生中のコンテンツが選択される例を説明したが、本技術は係る例に限定されない。
例えば、コンテンツ選択部105は、コンテンツリストに含まれるすべてのコンテンツについて、スコアリングが行われた後に、コンテンツを選択してもよい。係る場合、コンテンツ選択部105は、所定値以上のスコアが付けられたコンテンツを選択してもよいし、コンテンツリストのうち、スコアが高い順に所定数のコンテンツを選択してもよい。
係る構成によれば、例えばユーザが多数のコンテンツを簡易に確認した後に、より詳細に高いスコアが付けられたコンテンツの確認やコンテンツ同士の比較等を行うことが可能となる。
<4−2.変形例2>
また、上記では各コンテンツについて一度スコアリングがされる例を説明したが、本技術は係る例に限定されない。例えば、スコアリング部104は、スコアリングが行われたコンテンツに対して、再度ユーザによる音声評価が発話された場合に、当該コンテンツについて再度スコアリングを行ってもよい。以下では図6〜8を参照して、スコアリング部104が同一コンテンツに対して再度スコアリングを行う変形例について説明する。
図6は、スコアリング部104が同一コンテンツに対して再度スコアリングを行う場合の情報処理装置1の処理フローの一例を示すフローチャート図である。図6に示すステップS204〜S228の処理は、図3を参照して説明したステップS104〜S128の処理と同様であるため説明を省略する。
続いて、所定時間内にユーザによる音声評価が発話されたと音声認識部103により判定された場合(S230においてNO)、処理はステップS224に戻り、当該音声評価に基づいて、スコアリング部104により再度スコアリングが行われる。
一方、所定時間内にユーザによる音声評価が発話されたと音声認識部103により判定されない場合、処理はステップS232に戻る。なお、ステップS232〜S236の処理は、図3を参照して説明したステップS132〜S136の処理と同様であるため説明を省略する。
図7は、スコアリング部104が同一コンテンツに対して再度スコアリングを行う場合のスコアリング処理のフローの一例を示すフローチャート図である。図7に示すステップS2241〜S2246の処理は、図7を参照して説明したステップS1241〜S1246の処理と同様であるため説明を省略する。
ステップS2243,S2244で設定された対象のコンテンツについて、直前に既に音声評価が発話されていた場合(S2247においてYES)、基準スコアが直前の音声評価に基づくスコアリング処理で付けれられたスコアに設定される(S2248)。一方、ステップS2243,S2244で設定された対象のコンテンツについて、直前に既に音声評価が発話されていない場合(S2247においてNO)、基準スコアは平均点である50点に設定される。
続いて、スコアリング部104はスコアの算出を行う(S2250)。例えば、スコアリング部104は、ステップS2248,S2249で設定された基準スコアを用いて、上述した式(1)により、スコアの算出を行ってもよい。
以下に示す表9は、同一対象へ再度スコアリングが行われる場合のスコアリング例を示す表である。
Figure 2017182275
また、以下に示す表10は、表9に示した発話例N6、N7の形態素解析結果を示す表である。
Figure 2017182275
表9、10に示す発話例N6、7には、「好き」という形容動詞が含まれるため、ステップS2245において、発話例N6、7に係る音声評価はポジティブ評価と判定されてもよい。また、発話例N6、7には、「わりと」と副詞が含まれるため、ステップS2246において、発話例N6,7に係る係数は0.6と特定されてもよい。
また、ステップS2248において、発話例N6に係る基準スコアは、直前の発話例N4に係るスコアである50点と設定されてもよい。また、ステップS2248において、発話例N7に係る基準スコアは、直前の発話例N5に係るスコアである0点と設定されてもよい。
したがって、ステップS2250において、発話例N6、N7のスコアはそれぞれ以下の式(7)、(8)のように算出される。
基準スコア(50点)+判定スコア(+50点)×係数(0.6)=80点 (7)
基準スコア(0点)+判定スコア(50点)×係数(0.6)=30点 (8)
以上、本変形例の処理フローについて説明した。続いて、本変形例によるユーザとの対話動作の具体例について図8を参照して説明する。図8は、本変形例に係るユーザとの対話動作の具体例を示す説明図である。
まず、情報処理装置1が、ユーザU向けのコンテンツ(楽曲)を含むコンテンツリストを生成したことをユーザUに伝える発話W31を出力する。続いて、ユーザUがコンテンツリストの試聴再生を望む応答W32を発話すると、情報処理装置1は、コンテンツリストからコンテンツC31の試聴再生を行う。ユーザUがコンテンツC31に対する音声評価W33を発話すると、情報処理装置1は、音声評価W33に基づくスコアリング結果D31を表示する。なお、スコアリング結果D31は、コンテンツC31のスコアが50点であることを示している。
ここで、スコアリング結果D31を確認したユーザUが、図6のステップS230における所定時間内に再度、音声評価W34を発話すると、情報処理装置1は、再度スコアリングを行い、音声評価W34に基づくスコアリング結果D32を表示する。
以上説明したように、本変形例によれば、ユーザは、スコアリング結果を確認した上で、スコアを訂正することが可能となる。
なお、上記のようにスコアを訂正する発話が行われた場合、以後の処理において、図7に示すステップS2240において特定される係数や、ステップS2250におけるスコア算出の方法を、ユーザごとに変更してもよい。例えば、あるユーザによる音声評価における「わりと」と、他のユーザによる音声評価における「わりと」では、異なる係数が特定されてもよい。
<4−3.変形例3>
また、上記では、スコアリング部104が式(1)を用いてスコアの算出を行う例を説明したが、本技術は係る例に限定されない。
例えば、スコアリング部104は、コンテンツの出力(例えば試聴再生)からユーザによる音声評価が行われるまでの応答時間に基づいて、スコアリングを行ってもよい。例えば、スコアリング部104は、所定時間と応答時間を比較して応答時間が長いか短いかを判定してもよい。以下に示す表11は、応答時間に基づくスコアリング例を示す表である。
Figure 2017182275
例えば、スコアリング部104は、音声評価に言いよどみが含まれるか否かを判定し、当該判定の結果に基づいてスコアリングを行ってもよい。以下に示す表12は、言いよどみの判定に基づくスコアリング例を示す表である。
Figure 2017182275
<4−4.変形例4>
また、上記では、スコアリング部104が、1の音声評価に基づいて1のコンテンツをスコアリングする例を説明したが、本技術は係る例に限定されない。
例えば、スコアリング部104は、あるコンテンツに対する音声評価に基づいて、当該コンテンツと、当該コンテンツに類似するコンテンツのスコアリングを行ってもよい。例えば、あるコンテンツに対する音声評価に基づいて、当該コンテンツと、当該コンテンツに類似するコンテンツに同一のスコアが付けられてもよい。
係る構成によれば、ユーザによる音声評価の回数が少ない場合であっても、より高精度な個人化を実現することが可能となる。
<4−5.変形例5>
また、上記では、ユーザが自発的に音声評価を行う場合の動作例を説明したが、本技術は係る例に限定されない。例えば、出力制御部106は、ユーザに音声評価を促す情報を出力させてもよい。
図9は、出力制御部106がユーザに音声評価を促す場合の全体的な処理フローの一例を示すフローチャート図である。図9に示すステップS404〜S412の処理は、図3を参照して説明したステップS104〜S112の処理と同様であるため説明を省略する。
ステップS416において、所定時間内にユーザによる音声評価が認識されない場合(S416においてNO)、出力制御部106は、ユーザに音声評価を促す情報を出力する。例えば、出力制御部106は、スピーカ13を制御して、ユーザに音声評価を促す内容の音声を出力させてもよい。
続くステップS420〜S436の処理は、図3を参照して説明したステップ120〜S136の処理と同様であるため説明を省略する。
係る構成によれば、音声評価に基づいたスコアリングが行われることをユーザが把握していない場合であっても、ユーザに音声評価を促すことが可能となり、例えばユーザにより適したコンテンツの提供を行うことができる。
<4−6.変形例6>
また、上記では、スコアリングの結果が、例えば図1に示したスコアリング結果D10のようなスコアバーとして表示される例を説明したが、本技術は係る例に限定されず、出力制御部106は様々な方法で、スコアリングの結果を出力させてよい。
例えば、出力制御部106は、投影部16を制御して、スコアをテキスト表示させてもよい。また、出力制御部106は、スピーカ13を制御して、スコアを音声出力させてもよい。
また、出力制御部106は、複数のコンテンツに対するスコアリングに基づいた、コンテンツリストに含まれる複数のコンテンツのランキング(順位づけ)結果をスコアリングの結果として出力(例えば表示)させてもよい。なお、係る場合、スコアリング部104は、コンテンツを比較したり、順位を示すような音声評価に基づいて、スコアリングを行ってもよい。
<4−7.変形例7>
また、上記では、ユーザが1人である場合を例に説明を行ったが、本技術は係る例に限定されず、ユーザが複数の場合であっても当然適用可能である。
例えば、スコアリング部104は、複数のユーザによる音声評価に基づいて、スコアリングを行ってもよく、出力制御部106は、ユーザごとにスコアリングの結果(例えば複数のコンテンツのランキング結果)を出力してもよい。係る構成によれば、ユーザは本技術により個人化されていることをより実感しやすくなる。
<4−8.変形例8>
また、上記では、コンテンツリスト管理部102が、スコアリング結果に基づいてコンテンツリストを管理(生成や更新)する例を説明したが、本技術は係る例に限定されない。
例えば、コンテンツリスト管理部102は、ユーザの操作、選択、視聴等の履歴にさらに基づいて、コンテンツリストの管理を行ってもよい。係る構成によれば、ユーザによる音声評価が過去に行われていない場合であっても、コンテンツリストを生成することが可能である。
また、コンテンツリスト管理部102は、ユーザの内的状態(体調、忙しさ等)、または外的状態(季節、天気、あるアーティストのコンサートに行く等)等にさらに基づいてコンテンツリストを管理してもよい。なお、同様に、ユーザの内的状態、または外的要因の情報にさらに基づいてスコアリング部104によるスコアリングが行われてもよい。
係る構成によれば、ユーザの音声評価だけでなく、ユーザの内的状態、または外的状態にも基づいてコンテンツが提供されるため、例えば、ユーザの嗜好が変化した場合であっても、ユーザに適したコンテンツを提供することが可能となる。
<<5.ハードウェア構成例>>
以上、本開示の実施形態を説明した。上述したユーザ認識処理、コンテンツリスト管理処理、音声認識処理、スコアリング処理、コンテンツ選択処理、出力制御処理等の情報処理は、ソフトウェアと、情報処理装置1との協働により実現される。以下では、本実施形態に係る情報処理装置である情報処理装置1のハードウェア構成例として、情報処理装置1000のハードウェア構成例について説明する。
図10は、情報処理装置1000のハードウェア構成の一例を示す説明図である。図10に示したように、情報処理装置1000は、CPU(Central Processing Unit)1001と、ROM(Read Only Memory)1002と、RAM(Random Access Memory)1003と、入力装置1004と、出力装置1005と、ストレージ装置1006と、撮像装置1007と、通信装置1008とを備える。
CPU1001は、演算処理装置及び制御装置として機能し、各種プログラムに従って情報処理装置1000内の動作全般を制御する。また、CPU1001は、マイクロプロセッサであってもよい。ROM1002は、CPU1001が使用するプログラムや演算パラメータ等を記憶する。RAM1003は、CPU1001の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバス等から構成されるホストバスにより相互に接続されている。主に、CPU1001、ROM1002及びRAM1003とソフトウェアとの協働により、制御部10の機能が実現される。
入力装置1004は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等ユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU1001に出力する入力制御回路等から構成されている。情報処理装置1000のユーザは、該入力装置1004を操作することにより、情報処理装置1000に対して各種のデータを入力したり処理動作を指示したりすることができる。
出力装置1005は、例えば、液晶ディスプレイ(LCD)装置、OLED装置、シースルーディスプレイ、及びランプ等の表示装置を含む。さらに、出力装置1005は、スピーカ及びヘッドホン等の音声出力装置を含む。例えば、表示装置は、撮像された画像や生成された画像等を表示する。一方、音声出力装置は、音声データ等を音声に変換して出力する。出力装置1005は、例えば図2を参照して説明したスピーカ13、投影部16、発光部18に対応する。
ストレージ装置1006は、データ格納用の装置である。ストレージ装置1006は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置及び記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置1006は、CPU1001が実行するプログラムや各種データを格納する。ストレージ装置1006は、図2を参照して説明した記憶部17に対応する。
撮像装置1007は、光を集光する撮影レンズ及びズームレンズ等の撮像光学系、及びCCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)等の信号変換素子を備える。撮像光学系は、被写体から発せられる光を集光して信号変換部に被写体像を形成し、信号変換素子は、形成された被写体像を電気的な画像信号に変換する。撮像装置1007は、図2を参照して説明したカメラ14に対応する。
通信装置1008は、例えば、通信網に接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置1008は、無線LAN(Local Area Network)対応通信装置、LTE(Long Term Evolution)対応通信装置、有線による通信を行うワイヤー通信装置、またはブルートゥース通信装置を含んでもよい。通信装置1008は、例えば図2を参照して説明した通信部11に対応する。
<<6.むすび>>
以上、説明したように、本開示の実施形態によれば、コンテンツに対するユーザによる音声評価に基づいて、スコアリングを行い、コンテンツを選択することで、ユーザへの負担を軽減させつつ、ユーザに適したコンテンツを提供することが可能である。また、ユーザによる音声評価に基づくスコアリング結果を出力させることで、さらにユーザからの音声評価が行われやすくなると共に、個人化されていることがユーザに実感されやすくなる。
さらに、例えば、コンテンツの提供が行われる際、「前にこの曲が好きだと言っていたので、同じ系統のアーティストの曲を選んでみました」等、過去の音声評価の内容を引用した発話を行うことも可能となり、よりユーザの満足度を高める効果が期待できる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上記実施形態では、コンテンツの一例として楽曲を例に説明を行ったが、本技術はかかる例に限定されない。例えば、コンテンツは、映像、画像、ニュース、テレビ番組、映画、レストラン、献立、旅行先情報、ウェブページ等、ユーザに提供されうる様々な情報であってもよい。
また、上記実施形態における各ステップは、必ずしもフローチャート図として記載された順序に沿って時系列に処理する必要はない。例えば、上記実施形態の処理における各ステップは、フローチャート図として記載した順序と異なる順序で処理されても、並列的に処理されてもよい。
また、上記実施形態によれば、CPU1001、ROM1002、及びRAM1003などのハードウェアを、上述した情報処理装置1の各構成と同様の機能を発揮させるためのコンピュータプログラムも提供可能である。また、該コンピュータプログラムが記録された記録媒体も提供される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
複数のコンテンツを含むコンテンツリストに含まれるコンテンツに対する、ユーザによる曖昧な音声評価に基づいてスコアリングを行うスコアリング部と、
前記スコアリングの結果に基づいて、前記コンテンツリストからコンテンツを選択するコンテンツ選択部と、
を備える情報処理装置。
(2)
前記スコアリング部による前記スコアリングの結果に基づいて、前記コンテンツリストを管理する、コンテンツリスト管理部をさらに備える、前記(1)に記載の情報処理装置。
(3)
前記コンテンツリスト管理部は、前記スコアリングの結果に基づいて、前記コンテンツリストを生成する、前記(2)に記載の情報処理装置。
(4)
前記コンテンツリスト管理部は、前記スコアリング部が前記スコアリングを行う度に、前記スコアリングの結果に基づいて、前記コンテンツリストを更新する、前記(2)または(3)に記載の情報処理装置。
(5)
前記スコアリング部は、前記音声評価に基づく発話テキストから、スコアと対応付けられた所定文言を検出し、前記所定文言に基づいて前記スコアリングを行う、前記(1)〜(4)のいずれか一項に記載の情報処理装置。
(6)
前記スコアリング部は、前記音声評価に基づく発話テキストの形態素解析結果に基づいて、スコアリングを行う、前記(1)〜(5)のいずれか一項に記載の情報処理装置。
(7)
前記スコアリング部は、前記音声評価がポジティブ評価であるか、ネガティブ評価であるかを判定し、当該判定の結果に基づいて前記スコアリングを行う、前記(1)〜(6)のいずれか一項に記載の情報処理装置。
(8)
前記スコアリング部は、前記コンテンツの出力から前記音声評価が行われるまでの応答時間に基づいて、前記スコアリングを行う、前記(1)〜(7)のいずれか一項に記載の情報処理装置。
(9)
前記スコアリング部は、前記音声評価に言いよどみが含まれるか否かを判定し、当該判定の結果に基づいて前記スコアリングを行う、前記(1)〜(8)のいずれか一項に記載の情報処理装置。
(10)
前記情報処理装置は、前記スコアリングの結果を出力させる出力制御部をさらに備える、前記(1)〜(9)のいずれか一項に記載の情報処理装置。
(11)
前記スコアリング部は、前記スコアリングが行われた前記コンテンツに対する前記ユーザによる前記音声評価に基づいて、再度スコアリングを行う、前記(10)に記載の情報処理装置。
(12)
前記スコアリング部は、複数のユーザによる前記音声評価に基づいてスコアリングを行い、
前記出力制御部は、前記ユーザごとに前記スコアリングの結果を出力させる、前記(10)または(11)に記載の情報処理装置。
(13)
前記出力制御部は、前記ユーザに前記音声評価を促す情報を出力させる、前記(10)〜(12)のいずれか一項に記載の情報処理装置。
(14)
複数のコンテンツを含むコンテンツリストに含まれるコンテンツに対する、ユーザによる曖昧な音声評価に基づいてスコアリングを行うことと、
前記スコアリングの結果に基づいて、前記コンテンツリストからコンテンツを選択することと、
を含む情報処理方法。
(15)
コンピュータに、
複数のコンテンツを含むコンテンツリストに含まれるコンテンツに対する、ユーザによる曖昧な音声評価に基づいてスコアリングを行う機能と、
前記スコアリングの結果に基づいて、前記コンテンツリストからコンテンツを選択する機能と、
を実現させるための、プログラム。
1 情報処理装置
10 制御部
11 通信部
12 収音部
13 スピーカ
14 カメラ
15 測距センサ
16 投影部
17 記憶部
18 発光部
101 ユーザ認識部
102 コンテンツリスト管理部
103 音声認識部
104 スコアリング部
105 コンテンツ選択部
106 出力制御部

Claims (15)

  1. 複数のコンテンツを含むコンテンツリストに含まれるコンテンツに対する、ユーザによる曖昧な音声評価に基づいてスコアリングを行うスコアリング部と、
    前記スコアリングの結果に基づいて、前記コンテンツリストからコンテンツを選択するコンテンツ選択部と、
    を備える情報処理装置。
  2. 前記スコアリング部による前記スコアリングの結果に基づいて、前記コンテンツリストを管理する、コンテンツリスト管理部をさらに備える、請求項1に記載の情報処理装置。
  3. 前記コンテンツリスト管理部は、前記スコアリングの結果に基づいて、前記コンテンツリストを生成する、請求項2に記載の情報処理装置。
  4. 前記コンテンツリスト管理部は、前記スコアリング部が前記スコアリングを行う度に、前記スコアリングの結果に基づいて、前記コンテンツリストを更新する、請求項2に記載の情報処理装置。
  5. 前記スコアリング部は、前記音声評価に基づく発話テキストから、スコアと対応付けられた所定文言を検出し、前記所定文言に基づいて前記スコアリングを行う、請求項1に記載の情報処理装置。
  6. 前記スコアリング部は、前記音声評価に基づく発話テキストの形態素解析結果に基づいて、スコアリングを行う、請求項1に記載の情報処理装置。
  7. 前記スコアリング部は、前記音声評価がポジティブ評価であるか、ネガティブ評価であるかを判定し、当該判定の結果に基づいて前記スコアリングを行う、請求項1に記載の情報処理装置。
  8. 前記スコアリング部は、前記コンテンツの出力から前記音声評価が行われるまでの応答時間に基づいて、前記スコアリングを行う、請求項1に記載の情報処理装置。
  9. 前記スコアリング部は、前記音声評価に言いよどみが含まれるか否かを判定し、当該判定の結果に基づいて前記スコアリングを行う、請求項1に記載の情報処理装置。
  10. 前記情報処理装置は、前記スコアリングの結果を出力させる出力制御部をさらに備える、請求項1に記載の情報処理装置。
  11. 前記スコアリング部は、前記スコアリングが行われた前記コンテンツに対する前記ユーザによる前記音声評価に基づいて、再度スコアリングを行う、請求項10に記載の情報処理装置。
  12. 前記スコアリング部は、複数のユーザによる前記音声評価に基づいてスコアリングを行い、
    前記出力制御部は、前記ユーザごとに前記スコアリングの結果を出力させる、請求項10に記載の情報処理装置。
  13. 前記出力制御部は、前記ユーザに前記音声評価を促す情報を出力させる、請求項10に記載の情報処理装置。
  14. 複数のコンテンツを含むコンテンツリストに含まれるコンテンツに対する、ユーザによる曖昧な音声評価に基づいてスコアリングを行うことと、
    前記スコアリングの結果に基づいて、前記コンテンツリストからコンテンツを選択することと、
    を含む情報処理方法。
  15. コンピュータに、
    複数のコンテンツを含むコンテンツリストに含まれるコンテンツに対する、ユーザによる曖昧な音声評価に基づいてスコアリングを行う機能と、
    前記スコアリングの結果に基づいて、前記コンテンツリストからコンテンツを選択する機能と、
    を実現させるための、プログラム。
JP2016065744A 2016-03-29 2016-03-29 情報処理装置、情報処理方法、及びプログラム Pending JP2017182275A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2016065744A JP2017182275A (ja) 2016-03-29 2016-03-29 情報処理装置、情報処理方法、及びプログラム
CN201780007452.4A CN108780456A (zh) 2016-03-29 2017-01-20 信息处理装置、信息处理方法和程序
PCT/JP2017/001866 WO2017168985A1 (ja) 2016-03-29 2017-01-20 情報処理装置、情報処理方法、及びプログラム
US16/069,072 US20190035420A1 (en) 2016-03-29 2017-01-20 Information processing device, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016065744A JP2017182275A (ja) 2016-03-29 2016-03-29 情報処理装置、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2017182275A true JP2017182275A (ja) 2017-10-05

Family

ID=59964030

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016065744A Pending JP2017182275A (ja) 2016-03-29 2016-03-29 情報処理装置、情報処理方法、及びプログラム

Country Status (4)

Country Link
US (1) US20190035420A1 (ja)
JP (1) JP2017182275A (ja)
CN (1) CN108780456A (ja)
WO (1) WO2017168985A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020003820A1 (ja) * 2018-06-28 2020-01-02 ソニー株式会社 複数の処理を並列実行する情報処理装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11501752B2 (en) * 2021-01-20 2022-11-15 International Business Machines Corporation Enhanced reproduction of speech on a computing system

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7652583B2 (en) * 2007-03-20 2010-01-26 Deere & Company Method and system for maintaining operator alertness
JP5464412B2 (ja) * 2009-08-12 2014-04-09 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP5589426B2 (ja) * 2010-02-18 2014-09-17 日本電気株式会社 コンテンツ提供システム、コンテンツ提供方法、およびコンテンツ提供プログラム
US9799228B2 (en) * 2013-01-11 2017-10-24 Educational Testing Service Systems and methods for natural language processing for speech content scoring
US20140200879A1 (en) * 2013-01-11 2014-07-17 Brian Sakhai Method and System for Rating Food Items
JP2014241498A (ja) * 2013-06-11 2014-12-25 三星電子株式会社Samsung Electronics Co.,Ltd. 番組推薦装置
US20160300023A1 (en) * 2015-04-10 2016-10-13 Aetna Inc. Provider rating system
CN105101051B (zh) * 2015-05-27 2020-07-07 北京搜狗科技发展有限公司 一种信息处理方法及电子设备
US10489509B2 (en) * 2016-03-14 2019-11-26 International Business Machines Corporation Personality based sentiment analysis of textual information written in natural language

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020003820A1 (ja) * 2018-06-28 2020-01-02 ソニー株式会社 複数の処理を並列実行する情報処理装置

Also Published As

Publication number Publication date
WO2017168985A1 (ja) 2017-10-05
US20190035420A1 (en) 2019-01-31
CN108780456A (zh) 2018-11-09

Similar Documents

Publication Publication Date Title
US11100922B1 (en) System and methods for triggering sequences of operations based on voice commands
US10733987B1 (en) System and methods for providing unplayed content
US10950228B1 (en) Interactive voice controlled entertainment
US8421932B2 (en) Apparatus and method for speech recognition, and television equipped with apparatus for speech recognition
CN109643548B (zh) 用于将内容路由到相关联输出设备的系统和方法
CN108319171B (zh) 一种基于语音控制的动向投影方法、装置及动向投影系统
US20210272569A1 (en) Voice feedback for user interface of media playback device
CN106462646B (zh) 控制设备、控制方法和计算机程序
WO2018142686A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2017168936A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2017141530A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JPWO2016157650A1 (ja) 情報処理装置、制御方法、およびプログラム
US20230176813A1 (en) Graphical interface for speech-enabled processing
EP3916538B1 (en) Creating a cinematic storytelling experience using network-addressable devices
US11048459B2 (en) Content prioritization for a display array
WO2020079941A1 (ja) 情報処理装置及び情報処理方法、並びにコンピュータプログラム
JP7453712B2 (ja) オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器
JP6973380B2 (ja) 情報処理装置、および情報処理方法
WO2017168985A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6645779B2 (ja) 対話装置および対話プログラム
US11778277B1 (en) Digital item processing for video streams
JP5330005B2 (ja) デジタルフォトフレーム、情報処理システム及び制御方法
JP7230085B2 (ja) 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US20220406308A1 (en) Electronic apparatus and method of controlling the same
US20240223861A1 (en) Smart content search from audio/video captures while watching tv content itself