JP7470687B2

JP7470687B2 - 推定用モデル生成システム

Info

Publication number: JP7470687B2
Application number: JP2021530560A
Authority: JP
Inventors: 茂樹田中; 佑介深澤
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2019-07-05
Filing date: 2020-06-17
Publication date: 2024-04-18
Anticipated expiration: 2040-06-17
Also published as: WO2021005987A1; US20220399000A1; JPWO2021005987A1

Description

本発明は、楽曲に関する情報に基づく推定に用いる推定用モデルを生成する推定用モデル生成システム、及び推定用モデルを用いて推定を行う推定システムに関する。

従来から、カラオケおけるユーザの歌唱履歴に基づいて、ユーザに楽曲をレコメンドすることが提案されている（例えば、特許文献１参照）。

特開２０１２－７８３８７号公報

上記の特許文献１に示される方法は、ユーザが過去に歌唱したことがない楽曲であってもレコメンドし得るものであるが、ユーザがどのような順番で楽曲を歌唱したかが適切に考慮されていない。例えば、複数のユーザからなるユーザグループでカラオケが行われる場合、通常、異なるユーザが順番に歌唱するため、次にレコメンドされる楽曲はそれまでに歌唱された楽曲の順番を考慮したものである必要がある。従って、特許文献１に示される方法は、そのような観点からは適切にレコメンドを行えないおそれがある。

本発明の一実施形態は、上記に鑑みてなされたものであり、適切に楽曲に関する情報に基づく推定を行うことができる推定用モデル生成システム及び推定システムを提供することを目的とする。

上記の目的を達成するために、本発明の一実施形態に係る推定用モデル生成システムは、楽曲に関する情報に基づく推定に用いる推定用モデルを生成する推定用モデル生成システムであって、機械学習に用いる学習データである、順番を有する複数の楽曲の音声データに関する情報が当該順番の次元で当該順番順に並べられた学習用情報を取得する学習データ取得部と、学習データ取得部によって取得された学習用情報を、順番の次元においてカーネルによる畳み込みを行う推定用モデルへの入力として機械学習を行って推定用モデルを生成するモデル生成部と、を備え、モデル生成部は、順番の次元以外の次元においてプーリングを行う推定用モデルを生成する。

また、本発明の一実施形態に係る推定システムは、推定用モデル生成システムによって生成された推定用モデルを用いて推定を行う推定システムであって、順番を有する複数の楽曲の音声データに関する情報が当該順番の次元で当該順番順に並べられた推定用情報を取得するモデル利用データ取得部と、モデル利用データ取得部によって取得された推定用情報を、推定用モデルへ入力して推定を行うモデル利用部と、を備える。

本発明の一実施形態によれば、機械学習によって生成される推定用モデルに基づいて、順番を有する複数の楽曲の音声データに関する情報が当該順番の次元で当該順番順に並べられた情報が用いられて推定を行うことができる。この推定用モデルでは、順番の次元においてカーネルによる畳み込みが行われる。そのため、推定において、楽曲の順番に関する特徴が適切に考慮される。例えば、畳み込みによって順番方向の多少のズレに対しても頑健な推定を行うことができる。従って、本発明の一実施形態によれば、適切に楽曲に関する情報に基づく推定を行うことができる。

本発明の一実施形態によれば、適切に楽曲に関する情報に基づく推定を行うことができる。

本発明の実施形態に係る推定用モデル生成システム及び推定システムであるレコメンドサーバの構成を示す図である。楽曲の音声データから変換されるスペクトログラムの例を示す図である。過去に歌唱された楽曲を示す時系列の情報の例を示すテーブルである。推定用モデルに含まれるカーネル、及びカーネルによる畳み込みの例を示す図である。推定用モデルによるゼロパディングを模式的に示す図である。推定用モデルによるマックスプーリングの例を示す図である。本発明の実施形態に係る推定用モデル生成システム及び推定システムであるレコメンドサーバで推定用モデルを生成する際に実行される処理を示すフローチャートである。本発明の実施形態に係る推定用モデル生成システム及び推定システムであるレコメンドサーバでユーザへの楽曲に関するレコメンドを行う際に実行される処理を示すフローチャートである。本発明の実施形態に係る推定用モデル生成システム及び推定システムであるレコメンドサーバのハードウェア構成を示す図である。

以下、図面と共に本発明に係る推定用モデル生成システム及び推定システムの実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。

図１に本実施形態に係る推定用モデル生成システム及び推定システムであるレコメンドサーバ１を示す。レコメンドサーバ１は、楽曲に関する情報をユーザにレコメンドするシステムである。具体的には、レコメンドサーバ１は、ユーザがカラオケで歌唱する際に歌唱される楽曲、あるいは歌手をレコメンドする。レコメンドサーバ１は、楽曲が歌唱された後に次に歌唱する楽曲に関するレコメンドを行う。レコメンドサーバ１は、楽曲が歌唱される度に次に歌唱する楽曲に関するレコメンドを行ってもよい。

本実施形態においてレコメンドの対象となるユーザは、同時にカラオケを行う複数のユーザからなるグループ、例えば、順番で歌唱するユーザのグループを含んでいてもよい。以下の説明では、単にユーザといった場合であっても、複数のユーザからなるグループも含むものとする。なお、レコメンドサーバ１は、カラオケ以外でユーザが利用する楽曲に関する情報をレコメンドするものであってもよい。例えば、レコメンドサーバ１は、ユーザが聴く楽曲に関するレコメンドを行うものであってもよい。

レコメンドサーバ１は、機械学習を行って、楽曲に関する情報に基づく推定に用いる推定用モデル（学習済モデル）を生成して、生成した推定用モデルを用いてレコメンドする。レコメンドサーバ１は、推定用モデルを生成する構成としてモデル生成システム１０と、レコメンドする構成としてモデル利用システム２０とを含む。モデル生成システム１０は、本実施形態に係る、推定用モデルを生成する推定用モデル生成システムである。モデル利用システム２０は、本実施形態に係る、推定用モデルを用いて推定を行う推定システムである。

レコメンドサーバ１は、通信機能を有するサーバ装置によって構成されている。レコメンドサーバ１は、複数のサーバ装置、即ち、コンピュータシステムによって実現されてもよい。レコメンドサーバ１は、端末３０と、データサーバ４０との間でインターネット及び専用回線等のネットワークを介して互いに情報の送受信を行うことができる。なお、情報の送受信の際には、それらの装置の間に設けられた中継サーバによって情報の中継が行われてもよい。

端末３０は、カラオケ店等の店舗でユーザによって用いられる端末である。端末３０は、例えば、カラオケ店等の店舗において、ユーザが楽曲を検索、入力するのに用いられる。端末３０は、例えば、カラオケ店の店舗に設けられている情報端末である。あるいは、端末３０は、個々のユーザによって所有されるスマートフォン等の情報端末であってもよい。この場合、当該情報端末に当該端末３０としての機能を実現するカラオケ店用のアプリケーションがインストールされて用いられる。端末３０は、レコメンドサーバ１にレコメンドコンテンツの要求（リクエスト）を行って、レコメンドサーバ１からレコメンドに関する情報を受信して表示等の出力を行う。ユーザは、当該出力を参照して歌唱する楽曲を決めることができる。

データサーバ４０は、レコメンドサーバ１によるレコメンドに用いられるデータを記憶する装置である。具体的にどのような情報を記憶しているかについては後述する。データの種別毎に複数のデータサーバ４０が設けられていてもよい。

引き続いて、本実施形態に係るレコメンドサーバ１に含まれるモデル生成システム１０と、モデル利用システム２０とのそれぞれの機能を説明する。図１に示すように、モデル生成システム１０は、学習データ取得部１１と、モデル生成部１２とを備えて構成される。

学習データ取得部１１は、推定用モデルを作成する機械学習に用いる学習データを取得する機能部である。学習データ取得部１１は、学習データとして、順番を有する複数の楽曲の音声データに関する情報が当該順番の次元で当該順番順に並べられた学習用情報を取得する。音声データに関する情報は、スペクトログラムである。具体的には、学習データ取得部１１は、以下のように学習データを取得する。

学習データ取得部１１は、予め楽曲に関する情報を記憶している。この楽曲は、カラオケによって提供可能な楽曲、即ち、ユーザによって利用可能な楽曲である。学習データ取得部１１は、それぞれ予め設定された、各楽曲を特定する情報（識別子）である楽曲ＩＤ、及び当該楽曲を歌っている歌手を特定する情報（識別子）である歌手ＩＤ等を対応付けて記憶している。レコメンドサーバ１に予め記憶される情報は、特に説明する場合を除いてデータサーバ４０等から取得されている。

学習データ取得部１１は、各楽曲の音声データをデータサーバ４０から取得する。音声データは、例えば、カラオケの楽曲の再生に用いられるデータ（音源）であり、時刻毎の信号強度の数値である音声の波形のデータである。音声データとしては、ＭＰ３（MPEG-1 Audio Layer-3）が用いられてもよい。学習データ取得部１１は、各楽曲の音声データをスペクトログラム（メルスペクトログラム）に変換する。学習データ取得部１１は、各楽曲について、予め共通して設定された時間帯の音声データをスペクトログラムに変換する。例えば、楽曲の冒頭から１分間の音声データをスペクトログラムに変換する。これは、それぞれ時間長が異なる楽曲を同一のサイズのデータとして扱うためである。音声データのスペクトログラムへの変換は、従来の方法によって行うことができる。変換されたスペクトログラムは、時刻（例えば、楽曲の冒頭からの経過した秒）及び周波数（例えば、Ｈｚ）毎の信号強度の数値（例えば、ｄＢ）のデータとなる。図２にある楽曲についてのスペクトログラムの例を示す。図２に示すようにスペクトログラムは、画像として扱うことができる。なお、音声データに基づく情報としては、スペクトログラム以外の任意に特徴量化された情報が用いられてもよい。また、音声データに基づく情報として上記の波形のデータ自体が用いられてもよい。

学習データ取得部１１は、過去に利用された複数の楽曲に関する時系列の情報を取得する。具体的には、学習データ取得部１１は、カラオケ店等の店舗において過去に歌唱された複数の楽曲を示す時系列の情報であるログを取得する。学習データ取得部１１は、当該情報をデータサーバ４０から取得する。図３に当該情報の例を示す。当該情報は、端末ＩＤ、歌唱時間、楽曲及び楽曲ＩＤが対応付いたものである。端末ＩＤは、カラオケ店等の店舗における楽曲の利用に用いられた端末３０を特定する情報（識別子）である。それぞれの端末３０には、予め端末ＩＤが設定されている。歌唱時間は、利用（歌唱）された時刻を示す情報（例えば、図３に示すように年月日時分）である。楽曲は、利用（歌唱）された楽曲の楽曲名である。楽曲ＩＤは、利用（歌唱）された楽曲の楽曲ＩＤである。

カラオケ店等の店舗では、端末３０の利用の際にユーザがログインすることはほとんどない。そのため、本実施形態に示す情報のように、カラオケ店等の店舗における歌唱履歴には、どのユーザによって歌唱されたかを示す情報が含まれていない場合がある。機械学習のためには、楽曲の利用に係る履歴の情報をユーザ単位とする必要がある。学習データ取得部１１は、取得した情報に含まれる歌唱時間に基づいて、学習データを生成する。本実施形態では、ユーザが、カラオケの開始から終了まで、例えば、カラオケ店等の店舗への来店から退店までを１セッションとする。学習データ取得部１１は、セッションを単位として上記の情報を生成する。

学習データ取得部１１は、取得した各情報について、同一の端末ＩＤで直前に歌唱された楽曲の情報の歌唱時間を参照する。学習データ取得部１１は、直前の楽曲の歌唱から、予め設定された一定時間経過しているか否かを判断する。一定時間経過していなければ同一のユーザによって歌唱が行われているとして、学習データ取得部１１は、当該情報を直前の楽曲の情報と同一のセッションを構成する情報であるとする。一定時間経過していれば別のユーザによって歌唱が行われているとして、学習データ取得部１１は、当該情報を直前の楽曲の情報と別のセッションを構成する情報であるとする。例えば、図３に示す情報の例では、１行目及び２行目の情報が１つのセッション、３行目及び４行目の情報が１つのセッション、５行目の情報が１つのセッションをそれぞれ構成する。セッションを構成する楽曲は、上記のように歌唱された順番を有している。

学習データ取得部１１は、各セッションで歌唱された楽曲の情報それぞれに楽曲ＩＤをキーとして上述した音声データに基づく情報であるスペクトログラムを対応付ける。

続いて、学習データ取得部１１は、上記の情報に基づいて、学習用情報を生成する。学習データ取得部１１は、予め設定された数の複数の楽曲のスペクトログラムを、楽曲の順番の次元で順番順に並べて学習用情報を生成して取得する。上記のようにスペクトログラムは、時刻及び周波数の二次元の情報である。学習用情報は、それらの次元に加えて楽曲の順番の次元を有しているので三次元の情報となる。学習用情報を構成するスペクトログラムの数、即ち、楽曲の数は、推定用モデルへの１回の入力に対応するものである。例えば、この数が３であるとすると３曲分のスペクトログラムを含む学習用情報が推定用モデルへの１回の入力となる。推定用モデルは、連続する３曲の楽曲のスペクトログラムを入力して、その３曲の最後の楽曲の次にレコメンドする楽曲に関する情報を出力する。

学習データ取得部１１は、セッションに含まれる楽曲から、学習用情報を生成するための連続する楽曲の全ての組み合わせを特定する。セッションに含まれる楽曲のうち最後の楽曲については、学習用情報の生成には用いられない。例えば、セッションが５曲の楽曲から構成されている場合、１曲目～３曲目の楽曲、及び２曲目～４曲目の楽曲を、学習用情報を生成するための連続する楽曲とする。学習データ取得部１１は、これらの楽曲のスペクトログラムを取得し（読み出して）、順番順に並べて学習用情報を生成する。

学習データ取得部１１は、学習用データとして、学習用情報に対応する複数の楽曲の後に利用された楽曲に関する学習用利用楽曲情報を生成して取得する。学習データ取得部１１は、セッションにおける、学習用情報に対応する複数の楽曲のうちの最後の楽曲の次の楽曲を、機械学習の際の推定用モデルの出力に対応する楽曲とする。例えば、セッションの１曲目～３曲目の楽曲が学習用情報に対応する楽曲である場合、４曲目の楽曲が推定用モデルの出力に対応する楽曲である。当該楽曲に係る情報が、学習用利用楽曲情報である。当該楽曲に係る情報のうち、楽曲ＩＤ及び歌手ＩＤが、学習用利用楽曲情報とされる。学習データ取得部１１は、学習用利用楽曲情報において、楽曲ＩＤ及び歌手ＩＤを示す情報を、ＩＤの種類分の次元の、ＩＤに対応する要素を１とし、それ以外の要素を０とするベクトルに変換する。

学習データ取得部１１は、推定用モデルの生成に十分な数のセッションについての学習用情報及び学習用利用楽曲情報を取得する。即ち、推定用モデルの生成に十分な数のセッションについてのこれらの情報を予め用意しておく。学習データ取得部１１は、取得した学習データをモデル生成部１２に出力する。

モデル生成部１２は、学習データ取得部１１によって取得された学習データを用いて機械学習を行って推定用モデルを生成する機能部である。モデル生成部１２によって生成される推定用モデルは、カーネルによる畳み込みを行う。カーネルによる畳み込みは、順番の次元において行われる。また、推定用モデルは、順番の次元以外の次元においてプーリングを行う。また、推定用モデルは、レコメンドする楽曲に関する情報を出力する。モデル生成部１２は、推定用モデル生成のため、学習データ取得部１１によって取得された学習用情報を、推定用モデルへの入力として機械学習を行う。

モデル生成部１２によって生成される推定用モデルは、順番を有する複数の楽曲の音声データに関する情報が当該順番の次元で当該順番順に並べられた推定用情報を入力して、レコメンドする楽曲に関する情報を出力するモデルである。即ち、推定用モデルは、推定用情報から、レコメンドする楽曲に関する情報を推定（予測）するモデルである。推定状情報を構成する楽曲の数は、上記の各学習用情報を構成する楽曲の数と同じである。推定用モデルは、例えば、ニューラルネットワークを含んで構成される。ニューラルネットワークは、多層のものであってもよい。即ち、モデル生成部１２は、深層学習（ディープラーニング）を行って推定用モデルを生成してもよい。

例えば、推定用モデルでは入力層に、推定用情報を入力するためのニューロンとして推定用情報に対応する数のニューロンが設けられる。具体的には、上述したようにスペクトログラムの時刻の数×周波数の数×推定用情報を構成する楽曲の数のニューロンが設けられる。

例えば、推定用モデルは、レコメンドする楽曲に関する情報として、それぞれの楽曲についてレコメンドする度合いを示す数値及び歌手についてレコメンドする度合いを示す数値をそれぞれ出力する。推定用モデルでは出力層に、楽曲についてレコメンドする度合いを示す数値を出力するためのニューロンとして、レコメンドの対象となる楽曲の数のニューロンが設けられる。機械学習において、学習用利用楽曲情報として、歌唱された楽曲の要素を１とし、それ以外の楽曲の要素を０としたベクトルを用いる場合、出力される数値が大きい程、レコメンドする度合いが大きいことを示している。推定用モデルでは出力層に、歌手についてレコメンドする度合いを示す数値を出力するためのニューロンとして、レコメンドの対象となる歌手の数のニューロンが設けられる。機械学習において、学習用利用楽曲情報として、歌唱された楽曲の歌手の要素を１とし、それ以外の歌手の要素を０としたベクトルを用いる場合、出力される数値が大きい程、レコメンドする度合いが大きいことを示している。

推定用モデルは、順番を有する複数の楽曲に係る推定用情報の入力に応じて、レコメンドする楽曲に関する情報を出力する。出力されるレコメンドする楽曲に関する情報は、入力された推定用情報に係る複数の楽曲のうち最後の楽曲の次にレコメンドする楽曲に関する情報である。

なお、モデル生成部１２によって生成される推定用モデルは、後述するカーネル等が適用可能であればニューラルネットワーク以外によって構成されていてもよい。

ここで、推定用モデルにおける、カーネルを用いた畳み込み（Convolution）について説明する。カーネルは、通常、画像を入力としたニューラルネットワークにおいて用いられる。カーネルは、予め設定された次元の四角形数値配列（３×３等）である。元画像の各ピクセルの画素値にカーネルを掛けることで特徴化された出力画像を得ることができる。深層学習でカーネルの数値を学習させることで、目的に有用な特徴を抽出することができる。カーネルを複数層重ねて学習させることで、下層ではより複雑な特徴を捉えることができる。

画像の各画素値をそのまま用いて機械学習による推定を行うと、入力する画像に１ピクセルのズレがあった場合でも推定結果が全く違うものになり得る。人間の目はピクセル単位で画像を捉えているのではなく、どこに角がある等、画像の特徴を捉えている。畳み込みを行うことで人間の目に近い特徴化を行い、多少のズレ等に左右されずに画像の特徴を捉えた推定を行うことができる。本実施形態においても、楽曲の順番方向に畳み込みを行って楽曲の順番方向における特徴化を行う。

モデル生成部１２によって生成される推定用モデルは、推定用情報に対してカーネルによる畳み込みを行う。なお、ここでの推定用情報には、推定用モデルにおいて途中経過として種々の演算が行われた後の推定用情報も含まれる。カーネルのサイズ及び推定用モデルにおいてどこでカーネルが適用されるかについては予め設定されている。また、複数のカーネルが、推定用モデルに設けられていてもよい。カーネルは、推定用情報（学習用情報）の楽曲の順番の次元方向に畳み込みを行うように設定される。例えば、図４に示すように、カーネルＫのサイズは、推定用情報Ａ１，Ａ２のうちの時刻の次元Ｄ１、周波数の次元Ｄ２及び楽曲の順番の次元Ｄ３のそれぞれの次元において２要素分のサイズ（即ち、２×２×２要素のサイズ）とされる。なお、カーネルＫは、少なくとも楽曲の順番の次元Ｄ３において複数の要素を含むサイズであればよい。

図４に示すように、推定用モデルでは、畳み込み前の推定用情報Ａ１の各要素（ピクセル）について、当該要素の数値及び当該要素の周囲のカーネルに対応する要素の数値とカーネルの対応する位置の数値との積が算出されて、畳み込み後の推定用情報Ａ２の要素の数値とされる。例えば、上記の２×２×２要素のサイズのカーネルを用いる場合、対象となる要素に対して、それぞれの次元Ｄ１，Ｄ２，Ｄ３の次の要素までの範囲がカーネルＫと掛け合わされる範囲Ｒとされる。それらの要素の数値とカーネルの対応する位置の数値とが掛け合わされて、それらの和が畳み込み後の推定用情報Ａ２の要素Ｅの数値とされる。畳み込み前の推定用情報Ａ１の全ての要素に対して上記の演算が行われて、畳み込み後の推定用情報Ａ２が生成される。なお、畳み込み前の推定用情報Ａ１と畳み込み後の推定用情報Ａ２のサイズは同じになる。

なお、畳み込み前の推定用情報Ａ１のうち、畳み込みを行う各次元の端の要素についても畳み込みを行うため、推定用モデルでは、畳み込みを行う前に畳み込み前の推定用情報Ａ１に対して畳み込みを行う次元方向に要素が加えられる。例えば、上記の２×２×２要素のサイズのカーネルを用いる場合、図５に模式的に示すように畳み込み前の推定用情報Ａ１の各次元Ｄ１，Ｄ２，Ｄ３における最後の要素の次に数値が０である要素を加えるゼロパディングが行われる。なお、図５では、時刻の次元Ｄ１及び周波数の次元Ｄ２のみを示しているが、楽曲の順番の次元Ｄ３に対しても０の要素が加えられる。また、図５では、各次元Ｄ１，Ｄ２の要素数と加えられた０の要素数とが一致していない。

モデル生成部１２によって生成される推定用モデルは、推定用情報に対してプーリングを行う。なお、ここでの推定用情報には、推定用モデルにおいて途中経過として種々の演算が行われた後の推定用情報も含まれる。プーリングは、情報のサイズを小さくして、情報の特徴をより出すための処理である。プーリングのサイズ及び推定用モデルにおいてどこでプーリングが行われるかについては予め設定されている。推定用モデルにおいて複数回のプーリングが行われてもよい。プーリングは、畳み込みの後に行われてもよい。例えば、推定用モデルは、推定用情報に対してマックスプーリング（Max Pooling）を行う。推定用モデルは、楽曲の順番の次元Ｄ３以外の次元においてプーリングを行う。推定用モデルは、時刻の次元Ｄ１及び周波数の次元Ｄ２の両方又は何れかにおいてプーリングを行う。

例えば、図６（ａ）に示すように、推定用モデルは、時刻の次元Ｄ１及び周波数の次元Ｄ２の２×２の要素の領域において、一番大きい数値のみを残すことでこれらの二次元方向の要素数を元の半分にする二次元マックスプーリングを行う。この結果、図６（ｂ）に示すようにマックスプーリング後の推定用情報Ａ４の時刻の次元Ｄ１及び周波数の次元Ｄ２の要素数は、マックスプーリング前の推定用情報Ａ３の時刻の次元Ｄ１及び周波数の次元Ｄ２の要素数の半分になる。一方で、マックスプーリング後の推定用情報Ａ４の楽曲の順番の次元Ｄ３の要素数は、マックスプーリング前の推定用情報Ａ３の楽曲の順番の次元Ｄ３の要素数と同じになる。

モデル生成部１２は、学習データ取得部１１から学習データを入力する。モデル生成部１２は、入力した学習データのうち、学習用情報によって示されるそれぞれの数値を推定用モデルへの入力値とし、学習用利用楽曲情報を推定用モデルの出力値として機械学習を行って推定用モデルを生成する。

推定用モデルの機械学習を開始する際に、モデル生成部１２は、例えば、ランダムな数値又は予めの設定値としてカーネルの初期値を与える。機械学習では、カーネルを構成する数値も学習される。即ち、カーネルを構成する数値も学習時に徐々に変更され、目的に合った数値となる。

上記の機械学習自体は、従来の機械学習の方法と同様に行うことができる。モデル生成部１２は、生成した推定用モデルをモデル利用システム２０に出力する。学習データ取得部１１及びモデル生成部１２による処理は、例えば、日次のバッチ処理として行われてもよい。以上が、本実施形態に係るモデル生成システム１０の機能である。

引き続いて、本実施形態に係るモデル利用システム２０の機能を説明する。図１に示すように、モデル利用システム２０は、モデル利用データ取得部２１と、モデル利用部２２とを備えて構成される。

モデル利用データ取得部２１は、推定用モデルに用いられるモデル利用データを取得する機能部である。モデル利用データ取得部２１は、当該モデル利用データとして、順番を有する複数の楽曲の音声データに関する情報が当該順番の次元で当該順番順に並べられた推定用情報を取得する。

モデル利用データ取得部２１は、ユーザがカラオケ店等の店舗においてカラオケを行う、即ち、楽曲を利用する際のデータを取得する。ユーザがカラオケを行う際に、当該ユーザによって用いられる端末３０からレコメンドサーバ１にレコメンドコンテンツの要求が行われる。レコメンドコンテンツの要求は、ユーザが楽曲を歌唱した後に行われる。

ユーザがカラオケを開始し楽曲の歌唱を行うと、端末３０は、ユーザが歌唱した楽曲を示す情報を、レコメンドコンテンツの要求に含めてレコメンドサーバ１に送信する。送信される情報は、例えば、図３の各行に示す情報である。送信される情報には、複数の楽曲に係る情報（例えば、直近Ｎ件のログ）が含まれていてもよい。モデル利用データ取得部２１は、端末３０から送信された情報を受信する。モデル利用データ取得部２１は、端末３０から受信された楽曲の情報に楽曲ＩＤをキーとして上述した音声データに基づく情報であるスペクトログラムを対応付ける。当該対応付けは、学習データ取得部１１による方法と同様に行われる。

モデル利用データ取得部２１は、端末３０から逐次、送信される情報を受信して上記の対応付けを行う。また、モデル利用データ取得部２１は、学習データ取得部１１による方法と同様に取得した個々の楽曲に関する情報が、別の楽曲に関する情報と同一のセッションを構成するものであるかを判断してもよい。モデル利用データ取得部２１は、当該判断に基づいてセッション毎の時系列の楽曲に関する情報を生成する。モデル利用データ取得部２１は、生成した時系列の楽曲に関する情報から推定用情報を生成して取得する。モデル利用データ取得部２１は、セッションの最新の楽曲を含む、当該最新の楽曲から遡って予め設定された数の複数の楽曲のスペクトログラムを、楽曲の順番の次元で順番順に並べて推定用情報を生成して取得する。予め設定された数は、上述した学習用情報を生成する際の数と同様である。モデル利用データ取得部２１は、生成した推定用情報をセッションに係るユーザへのレコメンドに用いる情報とする。

モデル利用データ取得部２１は、取得した推定用情報をモデル利用部２２に出力する。

モデル利用部２２は、モデル利用データ取得部２１によって取得された推定用情報を、推定用モデルへ入力して推定を行う機能部である。モデル利用部２２は、モデル利用データ取得部２１によって取得された推定用情報を、推定用モデルへ入力してレコメンドする情報を決定する。

モデル利用部２２は、モデル生成システム１０によって生成された推定用モデルを入力して記憶しておき、ユーザへレコメンドする楽曲に関する情報の決定に用いる。モデル利用部２２は、モデル利用データ取得部２１から、推定用情報を入力する。

モデル利用部２２は、推定用情報を、推定用モデルへの入力値として、推定用モデルからの出力値であるレコメンド情報を得る。この際の演算では、入力された推定用情報に対して、楽曲の順番の次元においてカーネルによる畳み込み（その前処理としてのゼロパディングを含む）、及び楽曲の順番の次元以外においてプーリングが行われる。出力値となるレコメンド情報は、各楽曲についてレコメンドする度合いを示す数値及び各歌手についてレコメンドする度合いを示す数値（ベクトル）である。

モデル利用部２２は、出力値に基づいてユーザにレコメンドする情報を決定する。例えば、最も数値が大きい楽曲及び歌手をユーザにレコメンドするものと決定する。あるいは、数値が大きいものから順に予め設定した数の楽曲及び歌手をユーザにレコメンドするものと決定する。モデル利用部２２は、当該決定を新たなレコメンド情報が得られる度に、即ち、端末３０から歌唱した楽曲として新たな楽曲を示す情報が送信される度に行う。モデル利用部２２は、決定した情報を端末３０に送信する。端末３０は、レコメンドサーバ１から送信されたレコメンドに係る情報を受信して、表示等の出力を行う。ユーザは、当該表示を参照して次に歌唱する楽曲を決めることができる。

モデル利用データ取得部２１及びモデル利用部２２による処理は、例えば、上記のように端末３０からの情報の受信に応じたリアルタイム処理として行われる。以上が、本実施形態に係るモデル利用システム２０の機能である。

引き続いて、図７及び図８のフローチャートを用いて、本実施形態に係るレコメンドサーバ１で実行される処理（レコメンドサーバ１が行う動作方法）を説明する。まず、図７のフローチャートを用いて、推定用モデルを生成する際に実行される処理、即ち、本実施形態に係るモデル生成システム１０で実行される処理を説明する。

本処理では、まず、学習データ取得部１１によって、推定用モデルを作成する機械学習に用いる学習データが取得される（Ｓ０１）。学習データは、学習用情報及び学習用利用楽曲情報である。続いて、モデル生成部１２によって、学習データに基づいて機械学習が行われて、推定用モデルが生成される（Ｓ０２）。この機械学習の際には、学習用情報が推定用モデルへの入力とされ、学習用利用楽曲情報に基づく情報が推定用モデルの出力とされる。機械学習によって生成される推定用モデルは、楽曲の順番の次元においてカーネルによる畳み込みを行い、また、楽曲の順番の次元以外においてプーリングを行うものである。以上が、推定用モデルを生成する際に実行される処理である。

引き続いて、図８のフローチャートを用いて、ユーザへの楽曲に関するレコメンドを行う際に実行される処理、即ち、本実施形態に係るモデル利用システム２０で実行される処理を説明する。本処理では、まず、モデル利用データ取得部２１によって、推定用モデルに用いられるモデル利用データが取得される（Ｓ１１）。モデル利用データは、端末３０から送信されるレコメンドコンテンツの要求の受信をトリガとして取得される。モデル利用データは、推定用情報である。

続いて、モデル利用部２２によって、モデル利用データである推定用情報が推定用モデルへ入力されて、ユーザへレコメンドする楽曲に関するレコメンド情報が決定される（Ｓ１２）。この際の演算では、入力された推定用情報に対して、楽曲の順番の次元においてカーネルによる畳み込み（その前処理としてのゼロパディングを含む）、及び楽曲の順番の次元以外においてプーリングが行われる。続いて、モデル利用部２２によって、レコメンド用時系列情報に基づいてユーザへの楽曲に関するレコメンドが行われる（Ｓ１３）。ユーザは、レコメンドされた情報を参照して次に歌唱する楽曲を決めることができる。以上が、ユーザへの楽曲に関するレコメンドを行う際に実行される処理である。

本実施形態によれば、機械学習によって生成される推定用モデルに基づいて、順番を有する複数の楽曲の音声データに関する情報が当該順番の次元で当該順番順に並べられた情報が用いられて推定を行うことができる。この推定用モデルでは、順番の次元においてカーネルによる畳み込みが行われる。そのため、推定において、楽曲の順番に関する特徴が適切に考慮される。例えば、畳み込みによって順番方向の多少のズレに対しても頑健な推定を行うことができる。従って、本実施形態によれば、適切に楽曲に関する情報に基づく推定を行うことができる。また、本実施形態によれば、推定用モデルによって楽曲の順番方向の解釈が行われるので、当該解釈を別アルゴリズムで行う必要がない。

また、本実施形態のように、順番の次元以外の次元（例えば、スペクトログラムにおける時刻及び周波数）においてプーリングを行う推定用モデルの生成、及び当ギア推定用モデルによる推定が行われてもよい。例えば、本実施形態のようにマックスプーリングを行うこととしてもよい。この構成によれば、順番の次元以外の次元においては適切な特徴化を行うと共に、順番の次元においてはプーリングを行わないことで順番の次元方向での特徴の欠落を防ぐことができる。従って、この構成によれば、更に適切な推定を行うことができる。但し、必ずしも、上記のプーリングを行う推定用モデルとする必要はない。

また、本実施形態のように音声データに関する情報は、スペクトログラムとすることとしてもよい。この構成によれば、確実かつ適切に楽曲に関する情報に基づく推定を行うことができる。但し、音声データに関する情報として、スペクトログラム以外の情報が用いられてもよい。

また、本実施形態のように推定用モデルは、レコメンドする楽曲に関する情報を出力するものであってもよい。この構成によれば、歌唱された楽曲の順番を考慮したレコメンドを行うことができ、適切に楽曲に関するレコメンドを行うことができる。但し、推定用モデルは、必ずしも楽曲に関するレコメンドを行うものでなくてもよく、楽曲に関する情報に基づいて何らかの推定を行うものであればよい。例えば、推定用モデルは、ユーザの種別を推定するものであってもよい。

また、本実施形態では、同一の推定用モデルによって楽曲のレコメンドも歌手のレコメンドも行うことができる。但し、必ずしもこれら両方をレコメンドするものである必要はなく、何れか一方のみをレコメンドするものであってもよい。また、上記以外でも楽曲に関するものであれば、どのような情報をレコメンドしてもよい。

また、機械学習による推定用モデルの生成及び生成した推定用モデルを用いた推定では、順番を有する複数の楽曲の音声データに関する情報以外の情報も用いられてもよい。即ち、順番を有する複数の楽曲の音声データに関する情報以外の情報が、推定用モデルへの入力とされてもよい。

また、本実施形態では、レコメンドサーバ１は、モデル生成システム１０と、モデル利用システム２０とを含むこととしたが、モデル生成システム１０と、モデル利用システム２０とが独立してそれぞれ実施されてもよい。

また、モデル生成システム１０によって生成される推定用モデルは、人工知能ソフトウェアの一部であるプログラムモジュールとしての利用が想定される。推定用モデルは、ＣＰＵ及びメモリを備えるコンピュータにて用いられる。具体的には、コンピュータのＣＰＵが、メモリに記憶された推定用モデルからの指令に従って、ニューラルネットワークの入力層に情報を入力して、ニューラルネットワークにおける学習済の重み付け係数等に基づく演算を行って、ニューラルネットワークの出力層から結果を出力するように動作する。

なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した１つの装置を用いて実現されてもよいし、物理的又は論理的に分離した２つ以上の装置を直接的又は間接的に（例えば、有線、無線などを用いて）接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記１つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。

機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知（broadcasting）、通知（notifying）、通信（communicating）、転送（forwarding）、構成（configuring）、再構成（reconfiguring）、割り当て（allocating、mapping）、割り振り（assigning）などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック（構成部）は、送信部（transmitting unit）又は送信機（transmitter）と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。

例えば、本開示の一実施の形態におけるレコメンドサーバ１は、本開示の情報処理を行うコンピュータとして機能してもよい。図９は、本開示の一実施の形態に係るレコメンドサーバ１のハードウェア構成の一例を示す図である。上述のレコメンドサーバ１は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含むコンピュータ装置として構成されてもよい。また、端末３０及びデータサーバ４０も同様の装置構成であってもよい。

なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。レコメンドサーバ１のハードウェア構成は、図に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

レコメンドサーバ１における各機能は、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることによって、プロセッサ１００１が演算を行い、通信装置１００４による通信を制御したり、メモリ１００２及びストレージ１００３におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。

プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：Central Processing Unit）によって構成されてもよい。例えば、上述のレコメンドサーバ１における各機能は、プロセッサ１００１によって実現されてもよい。

また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュール、データなどを、ストレージ１００３及び通信装置１００４の少なくとも一方からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、レコメンドサーバ１における各機能は、メモリ１００２に格納され、プロセッサ１００１において動作する制御プログラムによって実現されてもよい。上述の各種処理は、１つのプロセッサ１００１によって実行される旨を説明してきたが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。プロセッサ１００１は、１以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。

メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable ＲＯＭ）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ＲＯＭ）、ＲＡＭ（Random Access Memory）などの少なくとも１つによって構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本開示の一実施の形態に係る情報処理を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ－ＲＯＭ（Compact Disc ＲＯＭ）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも１つによって構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。レコメンドサーバ１が備える記憶媒体は、例えば、メモリ１００２及びストレージ１００３の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。

通信装置１００４は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。

入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、LEDランプなど）である。なお、入力装置１００５及び出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

また、プロセッサ１００１、メモリ１００２などの各装置は、情報を通信するためのバス１００７によって接続される。バス１００７は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。

また、レコメンドサーバ１は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つを用いて実装されてもよい。

本開示において説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。

入出力された情報等は特定の場所（例えば、メモリ）に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：true又はfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

本開示において説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術（同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ：Digital Subscriber Line）など）及び無線技術（赤外線、マイクロ波など）の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。

本開示において使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。

また、本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。

サーバ及びクライアントの少なくとも一方は、送信装置、受信装置、通信装置などと呼ばれてもよい。なお、サーバ及びクライアントの少なくとも一方は、移動体に搭載されたデバイス、移動体自体などであってもよい。当該移動体は、乗り物（例えば、車、飛行機など）であってもよいし、無人で動く移動体（例えば、ドローン、自動運転車など）であってもよいし、ロボット（有人型又は無人型）であってもよい。なお、サーバ及びクライアントの少なくとも一方は、必ずしも通信動作時に移動しない装置も含む。例えば、サーバ及びクライアントの少なくとも一方は、センサなどのＩｏＴ（Internet of Things）機器であってもよい。

また、本開示におけるサーバは、クライアント端末で読み替えてもよい。例えば、サーバ及びクライアント端末間の通信を、複数のユーザ端末間の通信（例えば、Ｄ２Ｄ（Device-to-Device）、Ｖ２Ｘ（Vehicle-to-Everything）などと呼ばれてもよい）に置き換えた構成について、本開示の各態様／実施形態を適用してもよい。この場合、上述のサーバが有する機能をクライアント端末が有する構成としてもよい。

同様に、本開示におけるクライアント端末は、サーバで読み替えてもよい。この場合、上述のクライアント端末が有する機能をサーバが有する構成としてもよい。

本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)（例えば、テーブル、データベース又は別のデータ構造での探索）、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)（例えば、情報を受信すること）、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断（決定）」は、「想定する（assuming）」、「期待する（expecting）」、「みなす（considering）」などで読み替えられてもよい。

「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、２又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された２つの要素間に１又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用する場合、２つの要素は、１又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光（可視及び不可視の両方）領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。

本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

本開示において使用する「第１の」、「第２の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第１及び第２の要素への参照は、２つの要素のみが採用され得ること、又は何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

本開示において、「含む（include）」、「含んでいる（including）」及びそれらの変形が使用されている場合、これらの用語は、用語「備える（comprising）」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は（or）」は、排他的論理和ではないことが意図される。

本開示において、例えば、英語でのa, an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。

本開示において、「ＡとＢが異なる」という用語は、「ＡとＢが互いに異なる」ことを意味してもよい。なお、当該用語は、「ＡとＢがそれぞれＣと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。

１…レコメンドサーバ、１０…モデル生成システム、１１…学習データ取得部、１２…モデル生成部、２０…モデル利用システム、２１…モデル利用データ取得部、２２…モデル利用部、３０…端末、４０…データサーバ、１００１…プロセッサ、１００２…メモリ、１００３…ストレージ、１００４…通信装置、１００５…入力装置、１００６…出力装置、１００７…バス。

Claims

楽曲に関する情報に基づく推定に用いる推定用モデルを生成する推定用モデル生成システムであって、
機械学習に用いる学習データである、順番を有する複数の楽曲の音声データに関する情報が当該順番の次元で当該順番順に並べられた学習用情報を取得する学習データ取得部と、
前記学習データ取得部によって取得された学習用情報を、前記順番の次元においてカーネルによる畳み込みを行う推定用モデルへの入力として機械学習を行って推定用モデルを生成するモデル生成部と、
を備え、
前記モデル生成部は、前記順番の次元以外の次元においてプーリングを行う推定用モデルを生成する推定用モデル生成システム。