JP7284881B1 - Mobile communication system and communication method - Google Patents

Mobile communication system and communication method Download PDF

Info

Publication number
JP7284881B1
JP7284881B1 JP2023072960A JP2023072960A JP7284881B1 JP 7284881 B1 JP7284881 B1 JP 7284881B1 JP 2023072960 A JP2023072960 A JP 2023072960A JP 2023072960 A JP2023072960 A JP 2023072960A JP 7284881 B1 JP7284881 B1 JP 7284881B1
Authority
JP
Japan
Prior art keywords
user terminal
sim profile
mobile operator
sim
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023072960A
Other languages
Japanese (ja)
Inventor
純 柿島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Internet Initiative Japan Inc
Original Assignee
Internet Initiative Japan Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Internet Initiative Japan Inc filed Critical Internet Initiative Japan Inc
Priority to JP2023072960A priority Critical patent/JP7284881B1/en
Application granted granted Critical
Publication of JP7284881B1 publication Critical patent/JP7284881B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

Figure 0007284881000001

【課題】マルチプロファイルSIMにおいて、携帯電話網の通信状況に応じて自動でプロファイルを切り替える。
【解決手段】モバイル通信システムは、マルチプロファイルSIMを備えたユーザ端末と、ユーザ端末が通信可能な複数のモバイル事業者ネットワークと、ユーザ端末および複数のモバイル事業者ネットワークと接続されたSIMプロファイル切替装置と、を備える。SIMプロファイル切替装置は、複数のモバイル事業者ネットワークの各々の通信状況に基づいて、強化学習における報酬を決定する報酬決定部を備える。ユーザ端末は、ユーザ端末の状態と報酬とに基づく強化学習により、最適なSIMプロファイルの選択を学習するように構成された学習モデルと、学習モデルを用いて、ユーザ端末の状態に基づいてSIMプロファイルを選択するSIMプロファイル選択部とを備える。
【選択図】図7

Figure 0007284881000001

A multi-profile SIM automatically switches profiles according to the communication status of a mobile phone network.
A mobile communication system includes a user terminal equipped with a multi-profile SIM, a plurality of mobile operator networks with which the user terminal can communicate, and a SIM profile switching device connected to the user terminal and the plurality of mobile operator networks. And prepare. The SIM profile switching device comprises a reward determination unit that determines a reward in reinforcement learning based on the communication status of each of multiple mobile operator networks. The user terminal uses a learning model configured to learn to select an optimal SIM profile by reinforcement learning based on the state of the user terminal and a reward; and a SIM profile selection unit that selects the
[Selection drawing] Fig. 7

Description

本発明は、モバイル通信システムおよび通信方法に関する。特に、本発明は、マルチプロファイルSIMにおけるプロファイルの切り替えに関する。 The present invention relates to mobile communication systems and communication methods. In particular, the present invention relates to profile switching in multi-profile SIMs.

携帯電話端末やスマートフォンなどのユーザ端末が1枚のSIMカードで複数の携帯電話網に接続することが可能なマルチプロファイルSIMが開発されている(例えば非特許文献1参照)。マルチプロファイルSIMは、1枚のSIMカードの中に複数の通信事業者のプロファイル(携帯電話網に接続するための情報)を保持しており、ユーザ端末は、これら複数のプロファイルを切り替えて利用することができる。これにより、例えば通信障害時等に、SIMカード内のプロファイルを切り替えて異なる携帯電話網に接続することで、通信を確保することができる。 A multi-profile SIM has been developed that allows a user terminal such as a mobile phone terminal or a smart phone to connect to a plurality of mobile phone networks with a single SIM card (see Non-Patent Document 1, for example). A multi-profile SIM holds profiles of multiple carriers (information for connecting to mobile phone networks) in a single SIM card, and the user terminal switches between these multiple profiles for use. be able to. As a result, for example, when a communication failure occurs, the communication can be secured by switching the profile in the SIM card and connecting to a different mobile phone network.

「IIJ、1枚のSIMで複数の携帯電話網に接続できるマルチプロファイルSIMを開発」、[online]、株式会社インターネットイニシアティブ、[令和5年4月24日検索]、インターネット<https://www.iij.ad.jp/news/pressrelease/2022/1025.html>"IIJ develops a multi-profile SIM that can connect to multiple mobile phone networks with one SIM", [online], Internet Initiative Japan Inc., [searched on April 24, 2023], Internet <https:// www.iij.ad.jp/news/pressrelease/2022/1025.html>

しかしながら、従来のマルチプロファイルSIMでは、プロファイルの切り替えはユーザ端末の使用者が手動で行う必要があり、携帯電話網の通信状況に応じて自動でプロファイルを切り替えることは実現されていない。 However, in the conventional multi-profile SIM, the user of the user terminal must manually switch profiles, and automatic profile switching according to the communication status of the mobile phone network has not been realized.

本発明の一態様によれば、マルチプロファイルSIMを備えたユーザ端末と、前記ユーザ端末が通信可能な複数のモバイル事業者ネットワークと、前記ユーザ端末および前記複数のモバイル事業者ネットワークと接続されたSIMプロファイル切替装置と、を備えるモバイル通信システムであって、前記SIMプロファイル切替装置は、前記複数のモバイル事業者ネットワークの各々についての通信状況を管理する通信状況管理部と、前記複数のモバイル事業者ネットワークの各々の通信状況に基づいて、強化学習における報酬を決定する報酬決定部であって、前記報酬は、前記ユーザ端末が使用すべきSIMプロファイルの選択に関連する、報酬決定部と、前記報酬を前記ユーザ端末へ送信する送信部と、を備え、前記ユーザ端末は、前記ユーザ端末の状態と前記報酬とに基づく強化学習により、最適なSIMプロファイルの選択を学習するように構成された学習モデルと、前記学習モデルを用いて、前記ユーザ端末の状態に基づいてSIMプロファイルを選択するSIMプロファイル選択部と、前記選択されたSIMプロファイルを用いて前記複数のモバイル事業者ネットワークのうちの1つと通信する通信部と、を備える、モバイル通信システムが提供される。 According to one aspect of the present invention, a user terminal equipped with a multi-profile SIM, a plurality of mobile operator networks with which said user terminal can communicate, and a SIM connected to said user terminal and said plurality of mobile operator networks. a profile switching device, wherein the SIM profile switching device comprises: a communication status management unit that manages communication status of each of the plurality of mobile operator networks; a reward determination unit that determines a reward in reinforcement learning based on each communication situation of the a transmission unit for transmitting to the user terminal, wherein the user terminal has a learning model configured to learn selection of an optimum SIM profile by reinforcement learning based on the state of the user terminal and the reward; a SIM profile selector that uses the learning model to select a SIM profile based on the state of the user terminal; and communicates with one of the plurality of mobile operator networks using the selected SIM profile. A mobile communication system is provided, comprising: a communication unit;

また、本発明の一態様によれば、前記報酬決定部は、前記ユーザ端末が現在使用しているSIMプロファイルに対応するモバイル事業者ネットワークの通信状況が良好な場合は、当該SIMプロファイルに対する報酬値が最大となるように、前記報酬を決定するのであってよい。 Further, according to one aspect of the present invention, when the communication status of the mobile operator network corresponding to the SIM profile currently used by the user terminal is good, the remuneration determination unit determines the remuneration value for the SIM profile may be determined so as to maximize the reward.

また、本発明の一態様によれば、前記報酬決定部は、前記ユーザ端末が現在使用しているSIMプロファイルに対応するモバイル事業者ネットワークの通信状況が良好でなく、他のモバイル事業者ネットワークの通信状況が良好である場合は、当該他のモバイル事業者ネットワークに対応するSIMプロファイルに対する報酬値が最大となるように、前記報酬を決定するのであってよい。 Further, according to one aspect of the present invention, the remuneration determination unit determines that the communication status of the mobile operator network corresponding to the SIM profile currently used by the user terminal is not good, and the other mobile operator network The remuneration may be determined such that the remuneration value for the SIM profile corresponding to the other mobile operator network is maximized when communication conditions are good.

また、本発明の一態様によれば、前記学習モデルは、前記ユーザ端末の状態sを入力とし、複数のSIMプロファイルのうち各SIMプロファイルを選択する行動aを行った場合における行動価値Q(s,a)を出力とする、深層強化学習に基づくニューラルネットワークにより構成されたモデルであるのであってよい。 Further, according to one aspect of the present invention, the learning model receives the state s t of the user terminal as an input, and the action value Q It may be a model composed of a neural network based on deep reinforcement learning, which outputs (s t , a t ).

また、本発明の一態様によれば、前記学習モデルは、前記ユーザ端末が現在使用しているSIMプロファイルに対応するモバイル事業者ネットワークの通信状況が良好な場合は、前記ニューラルネットワークから出力される複数の行動価値のうち最大の行動価値を用いて、学習が行われるのであってよい。 Further, according to one aspect of the present invention, the learning model is output from the neural network when communication conditions of a mobile operator network corresponding to the SIM profile currently used by the user terminal are good. Learning may be performed using the maximum action value among the plurality of action values.

また、本発明の一態様によれば、前記学習モデルは、前記ユーザ端末が現在使用しているSIMプロファイルに対応するモバイル事業者ネットワークの通信状況が良好でなく、他のモバイル事業者ネットワークの通信状況が良好である場合は、前記ニューラルネットワークから出力される複数の行動価値のうち当該他のモバイル事業者ネットワークのSIMプロファイルに対応する行動価値を用いて、学習が行われるのであってよい。 In addition, according to one aspect of the present invention, the learning model determines that the communication status of the mobile operator network corresponding to the SIM profile currently used by the user terminal is not good, and that the communication status of another mobile operator network is not good. If the situation is favorable, learning may be performed using the behavior value corresponding to the SIM profile of the other mobile operator network among the plurality of behavior values output from the neural network.

また、本発明の一態様によれば、マルチプロファイルSIMを備えたユーザ端末と、前記ユーザ端末が通信可能な複数のモバイル事業者ネットワークと、前記ユーザ端末および前記複数のモバイル事業者ネットワークと接続されたSIMプロファイル切替装置と、を備えるモバイル通信システムにおける通信方法であって、前記SIMプロファイル切替装置が、前記複数のモバイル事業者ネットワークの各々についての通信状況を取得するステップと、前記SIMプロファイル切替装置が、前記複数のモバイル事業者ネットワークの各々の通信状況に基づいて、強化学習における報酬を決定するステップであって、前記報酬は、前記ユーザ端末が使用すべきSIMプロファイルの選択に関連する、ステップと、前記SIMプロファイル切替装置が、前記報酬を前記ユーザ端末へ送信するステップと、前記ユーザ端末が、前記ユーザ端末の状態と前記報酬とに基づく強化学習により、最適なSIMプロファイルの選択を学習モデルに学習させるステップと、前記ユーザ端末が、前記学習モデルを用いて、前記ユーザ端末の状態に基づいてSIMプロファイルを選択するステップと、前記ユーザ端末が、前記選択されたSIMプロファイルを用いて前記複数のモバイル事業者ネットワークのうちの1つと通信するステップと、を含む通信方法が提供される。 Further, according to one aspect of the present invention, a user terminal equipped with a multi-profile SIM, a plurality of mobile operator networks with which the user terminal can communicate, and a terminal connected to the user terminal and the plurality of mobile operator networks. a SIM profile switching device, wherein said SIM profile switching device acquires communication status for each of said plurality of mobile operator networks; and said SIM profile switching device. determining a reward in reinforcement learning based on the communication status of each of said plurality of mobile operator networks, said reward being related to selection of a SIM profile to be used by said user terminal; a step of the SIM profile switching device transmitting the reward to the user terminal; the user terminal using the learning model to select a SIM profile based on the state of the user terminal; and the user terminal using the selected SIM profile to perform the plurality of communicating with one of the mobile operator networks of .

本発明によれば、ユーザ端末は、SIMカードに保持された複数のSIMプロファイルの中からモバイル事業者ネットワークの通信状況に応じた最適なSIMプロファイルを選択して、通信を行うことができる。 According to the present invention, a user terminal can perform communication by selecting an optimum SIM profile according to the communication status of a mobile operator's network from among multiple SIM profiles held in a SIM card.

一実施形態に係るモバイル通信システムのネットワーク構成図である。1 is a network configuration diagram of a mobile communication system according to an embodiment; FIG. 別の実施形態に係るモバイル通信システムのネットワーク構成図である。FIG. 4 is a network configuration diagram of a mobile communication system according to another embodiment; ユーザ端末の状態の遷移を示す模式図である。FIG. 4 is a schematic diagram showing transition of states of a user terminal; 本発明の一実施形態に係る、SIMプロファイル切替装置およびユーザ端末の機能的構成を示すブロック図である。1 is a block diagram showing functional configurations of a SIM profile switching device and a user terminal according to an embodiment of the present invention; FIG. 学習モデルの一例(DQN)を示す図である。It is a figure which shows an example (DQN) of a learning model. 学習モデルの別の一例(Fixed Target Q-Network)を示す図である。FIG. 10 is a diagram showing another example of a learning model (Fixed Target Q-Network); 本発明の一実施形態に係る、SIMプロファイル切替装置およびユーザ端末の動作を示すフローチャートである。4 is a flow chart showing operations of a SIM profile switching device and a user terminal according to an embodiment of the present invention;

以下、図面を参照しながら本発明の実施形態について詳しく説明する。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明の一実施形態に係るモバイル通信システム10のネットワーク構成図である。モバイル通信システム10は、ユーザ端末100と、第1モバイル事業者ネットワークMNと、第2モバイル事業者ネットワークMNと、SIMプロファイル切替装置400を備える。各モバイル事業者ネットワークMN、MNは、それぞれ無線アクセスネットワーク200とコアネットワーク300とを備える。モバイル通信システム10において、ユーザ端末100は、モバイル事業者ネットワークMN、MNの無線アクセスネットワーク200およびコアネットワーク300を介して、インターネット500等のネットワークと通信することができる。なお、モバイル事業者ネットワークの数は2つに限定されず、任意であってよい。 FIG. 1 is a network configuration diagram of a mobile communication system 10 according to one embodiment of the present invention. The mobile communication system 10 comprises a user terminal 100 , a first mobile operator network MN 1 , a second mobile operator network MN 2 and a SIM profile switching device 400 . Each mobile operator network MN 1 , MN 2 comprises a radio access network 200 and a core network 300 respectively. In the mobile communication system 10, a user terminal 100 is capable of communicating with a network such as the Internet 500 via the radio access networks 200 and core networks 300 of mobile operator networks MN1 , MN2 . Note that the number of mobile operator networks is not limited to two and may be arbitrary.

ユーザ端末100は、携帯電話端末やスマートフォンなどの無線通信機器である。ユーザ端末100は、1枚のSIMカード110を備え、このSIMカード110には複数のSIMプロファイルが格納されている。SIMプロファイルは、ユーザ端末100がモバイル事業者ネットワークに接続するための情報である。図1の例では、ユーザ端末100は、SIMカード110に2つのSIMプロファイルSP、SPを有している。SIMプロファイルSPは第1モバイル事業者ネットワークMNに対応し、SIMプロファイルSPは第2モバイル事業者ネットワークMNに対応する。ユーザ端末100は、SIMプロファイルSPを使用して第1モバイル事業者ネットワークMNに接続することができ、またSIMプロファイルSPを使用して第2モバイル事業者ネットワークMNに接続することができる。なお、SIMカード110に保持されるSIMプロファイルの数は2より多くてもよい。 A user terminal 100 is a wireless communication device such as a mobile phone terminal or a smart phone. The user terminal 100 has one SIM card 110, and this SIM card 110 stores a plurality of SIM profiles. A SIM profile is information for connecting the user terminal 100 to a mobile operator network. In the example of FIG. 1, user terminal 100 has two SIM profiles SP 1 , SP 2 in SIM card 110 . SIM profile SP 1 corresponds to the first mobile operator network MN 1 and SIM profile SP 2 corresponds to the second mobile operator network MN 2 . The user terminal 100 can connect to a first mobile operator network MN 1 using SIM profile SP 1 and connect to a second mobile operator network MN 2 using SIM profile SP 2 . can. Note that the number of SIM profiles held in SIM card 110 may be more than two.

SIMプロファイル切替装置400は、ユーザ端末100におけるSIMプロファイルの切り替えを制御する装置である。SIMプロファイル切替装置400は、プロセッサおよびメモリを備えたコンピュータとして構成され、メモリに格納されたプログラムをプロセッサが読み出して実行することにより、所定の機能が実現される。SIMプロファイル切替装置400の機能および動作については以下に詳述する。 The SIM profile switching device 400 is a device that controls switching of SIM profiles in the user terminal 100 . SIM profile switching device 400 is configured as a computer having a processor and memory, and the processor reads out and executes a program stored in the memory to realize a predetermined function. The function and operation of SIM profile switcher 400 are described in detail below.

図1のモバイル通信システム10において、第1モバイル事業者ネットワークMNおよび第2モバイル事業者ネットワークMNは、ともに第5世代(5G)通信規格に準拠する。無線アクセスネットワーク(NG-RAN:Next Generation Radio Access Network)200は、複数の基地局を含む。コアネットワーク300は、AMF(Access and Mobility Management Function)302、SMF(Session Management Function)304、PCF(Policy Control Function)306、UDM(Unified Data Management)308、UDR(Unified Data Repository)310、UPF(User Plane Function)312の各ノードを備える。 In the mobile communication system 10 of FIG. 1, the first mobile operator network MN 1 and the second mobile operator network MN 2 both comply with the fifth generation (5G) communication standard. A radio access network (NG-RAN: Next Generation Radio Access Network) 200 includes a plurality of base stations. The core network 300 includes AMF (Access and Mobility Management Function) 302, SMF (Session Management Function) 304, PCF (Policy Control Function) 306, UDM (Unified Data Management) 308, UDR (Unified Data Repository) 310, UPF (User Plane Function) 312 nodes.

AMF302は、モビリティ制御機能を提供し、位置登録、ページング、およびハンドオーバ等の移動制御を行うノードである。SMF304は、セッション管理機能を提供し、セッションの保守、確立、変更および解放を行うノードである。PCF306は、データ転送速度や遅延時間などの品質に関するポリシー制御機能を提供するノードである。UDM308は、ユーザの契約情報や認証情報を管理するノードである。UDR310は、ユーザ端末の識別番号や在圏情報を保持した加入者データベースを格納するノードである。UPF312は、ユーザ端末との間でユーザデータを通信するノードである。これら各ノードは、5G通信規格に準拠するものであり、その詳細についての説明はここでは省略する。 The AMF 302 is a node that provides a mobility control function and performs mobility control such as location registration, paging, and handover. SMF 304 is a node that provides session management functions and maintains, establishes, modifies and releases sessions. The PCF 306 is a node that provides policy control functions related to quality such as data transfer rate and delay time. The UDM 308 is a node that manages user contract information and authentication information. The UDR 310 is a node that stores a subscriber database that holds user terminal identification numbers and location information. The UPF 312 is a node that communicates user data with user terminals. Each of these nodes conforms to the 5G communication standard, and detailed description thereof is omitted here.

第1モバイル事業者ネットワークMNと第2モバイル事業者ネットワークMNのいずれか一方または両方は、第4世代(4G)通信規格に準拠するのであってもよい。図2は、第1モバイル事業者ネットワークMNが5G通信規格に準拠し、第2モバイル事業者ネットワークMNが4G通信規格に準拠するモバイル通信システム10のネットワーク構成図である。図2のモバイル通信システム10において、第2モバイル事業者ネットワークMNの無線アクセスネットワーク200は、E-UTRAN(Evolved Universal Terrestrial Radio Access Network)である。また第2モバイル事業者ネットワークMNのコアネットワーク300は、MME(Mobility Management Entity)314、SGW(Serving Gateway)316、PGW-U(Packet data network Gateway-User Plane)318、PGW-C(Packet data network Gateway-Control Plane)320、PCRF(Policy and Charging Rules Function)322、HSS(Home Subscriber Server)324、およびUDR326の各ノードを含む。これらは4G通信規格に準拠するものであり、その詳細についての説明はここでは省略する。 Either or both of the first mobile operator network MN 1 and the second mobile operator network MN 2 may comply with the fourth generation (4G) communication standard. FIG. 2 is a network configuration diagram of a mobile communication system 10 in which a first mobile operator network MN 1 conforms to 5G communication standards and a second mobile operator network MN 2 conforms to 4G communication standards. In the mobile communication system 10 of FIG. 2, the radio access network 200 of the second mobile operator network MN 2 is E-UTRAN (Evolved Universal Terrestrial Radio Access Network). The core network 300 of the second mobile operator network MN 2 includes MME (Mobility Management Entity) 314, SGW (Serving Gateway) 316, PGW-U (Packet data network Gateway-User Plane) 318, PGW-C (Packet data Network Gateway-Control Plane) 320, PCRF (Policy and Charging Rules Function) 322, HSS (Home Subscriber Server) 324, and UDR 326 nodes. These conform to the 4G communication standard, and detailed description thereof is omitted here.

図3は、ユーザ端末100の状態の遷移を示す模式図である。ユーザ端末100の状態は、状態sから状態sへ、状態sから状態sへ、…、状態st-1から状態sへ、状態sから状態st+1へと遷移する。各状態間において、ユーザ端末100は、N個の行動a、a、…、aをとり得る。例えば、ユーザ端末100は、状態st-1において行動aを行って新たな状態sへと遷移し、次いで状態sにおいて行動aを行ってさらに新たな状態st+1へと遷移することができる。ユーザ端末100がとり得る行動は、複数のSIMプロファイルの中から1つのSIMプロファイルを選択することを含む。例えば、ユーザ端末100の行動aは、第1モバイル事業者ネットワークMNに対応するSIMプロファイルSPを選択することに対応し、ユーザ端末100の行動aは、第2モバイル事業者ネットワークMNに対応するSIMプロファイルSPを選択することに対応する(以下同様)のであってよい。なお、とり得る行動の数Nは、ユーザ端末100のSIMカード110に保持されているSIMプロファイルの数と等しい。ユーザ端末100の状態sは、例えば、3GPP(登録商標)で規定されているRRC IDLE、RRC INACTIVE、RRC CONNECTED等を含むのであってよい。 FIG. 3 is a schematic diagram showing state transitions of the user terminal 100. As shown in FIG. The state of the user terminal 100 transitions from state s1 to state s2 , from state s2 to state s3 , . Between each state, the user terminal 100 can take N actions a 1 , a 2 , . . . , a N . For example, the user terminal 100 performs action a 2 in state s t−1 and transitions to a new state s t , then performs action a 1 in state s t and further transitions to a new state s t+1. be able to. Actions that the user terminal 100 may take include selecting a SIM profile from among multiple SIM profiles. For example, action a 1 of the user terminal 100 corresponds to selecting SIM profile SP 1 corresponding to the first mobile operator network MN 1 , action a 2 of the user terminal 100 corresponds to the second mobile operator network MN 2 corresponding to selecting SIM profile SP 2 (and so on). Note that the number N of actions that can be taken is equal to the number of SIM profiles held in the SIM card 110 of the user terminal 100 . The state st of the user terminal 100 may include, for example, RRC IDLE, RRC INACTIVE, RRC CONNECTED, etc. defined by 3GPP (registered trademark).

図4は、モバイル通信システム10におけるSIMプロファイル切替装置400およびユーザ端末100の機能的構成を示すブロック図である。SIMプロファイル切替装置400は、ユーザ端末情報管理部402と、通信状況管理部404と、報酬決定部406と、送信部408とを備える。ユーザ端末100は、学習モデル102と、SIMプロファイル選択部104と、通信部106とを備える。 FIG. 4 is a block diagram showing functional configurations of the SIM profile switching device 400 and the user terminal 100 in the mobile communication system 10. As shown in FIG. SIM profile switching device 400 includes user terminal information management section 402 , communication status management section 404 , remuneration determination section 406 , and transmission section 408 . User terminal 100 includes learning model 102 , SIM profile selection section 104 , and communication section 106 .

SIMプロファイル切替装置400のユーザ端末情報管理部402は、ユーザ端末100から、ユーザ端末100の状態sと、ユーザ端末100が選択した行動a(iは1、2、…、Nのいずれか)とを含むユーザ端末情報を取得するように構成される。ユーザ端末情報管理部402は、さらに、ユーザ端末100のとり得る全ての状態と、各状態において各行動をとったときにユーザ端末100が次にどの状態に遷移するかに関する情報(例えば図3に示されるような状態遷移図)を管理するように構成される。 The user terminal information management unit 402 of the SIM profile switching device 400 receives from the user terminal 100 the state st of the user terminal 100 and the action a i (i is any of 1, 2, . . . , N) selected by the user terminal 100. ) to obtain user terminal information. The user terminal information management unit 402 further includes all possible states of the user terminal 100 and information on which state the user terminal 100 will transition to next when each action is taken in each state (for example, state transition diagram as shown).

SIMプロファイル切替装置400の通信状況管理部404は、モバイル通信システム10における複数のモバイル事業者ネットワークの各々についての通信状況を管理するように構成される。例えば、通信状況管理部404は、モバイル事業者ネットワークMNとMNにおけるそれぞれのNG-RAN200、AMF302、UDM308、UDR310、およびUPF312から、これら各装置のCPU使用率や、各モバイル事業者ネットワークのトラフィック量や障害発生情報などを含む各種情報を定期的に収集し、これらの収集した情報に基づいて、各モバイル事業者ネットワークMN、MNの通信状況(例えば、通信帯域が逼迫し輻輳が発生しそうであるか否か等)を把握することができる。 The communication status management unit 404 of the SIM profile switching device 400 is configured to manage the communication status of each of the multiple mobile operator networks in the mobile communication system 10 . For example, the communication status management unit 404, from the respective NG-RAN 200, AMF 302, UDM 308, UDR 310, and UPF 312 in the mobile operator networks MN 1 and MN 2 , the CPU usage rate of each device and the Various types of information including traffic volume and failure occurrence information are collected periodically, and based on the collected information, the communication status of each mobile operator network MN 1 and MN 2 (for example, the communication band is tight and congestion is occurring) (whether or not it is likely to occur, etc.) can be grasped.

SIMプロファイル切替装置400の報酬決定部406は、通信状況管理部404において特定された各モバイル事業者ネットワークの通信状況に基づいて、ユーザ端末100における最適SIMプロファイルの学習のための報酬を決定するように構成される。具体的に、報酬決定部406は、通信状況が良好なモバイル事業者ネットワークのSIMプロファイルを選択する行動に対して報酬値が高くなる(例えば最大となる)ように、報酬を決定する。 Remuneration determination unit 406 of SIM profile switching device 400 determines a reward for learning the optimum SIM profile in user terminal 100 based on the communication status of each mobile operator network specified by communication status management unit 404. configured to Specifically, the remuneration determining unit 406 determines a remuneration such that an action of selecting a SIM profile of a mobile operator network with good communication conditions has a high remuneration value (for example, maximizes).

例えば、報酬決定部406は、ユーザ端末100が現在使用しているSIMプロファイルが第1モバイル事業者ネットワークMNのSIMプロファイルSPであり、且つ第1モバイル事業者ネットワークMNの通信状況が良好である場合には、SIMプロファイルSPを選択する行動である行動aに対して報酬値“1”を有し、他の全ての行動a(j≠1)に対しては報酬値“0”を持つように、報酬を決定するのであってよい。また例えば、報酬決定部406は、ユーザ端末100が現在使用しているSIMプロファイルが第1モバイル事業者ネットワークMNのSIMプロファイルSPであるが、第1モバイル事業者ネットワークMNの通信状況が良好でなく第2モバイル事業者ネットワークMNの通信状況が良好である場合には、第2モバイル事業者ネットワークMNに対応するSIMプロファイルSPを選択する行動である行動aに対して報酬値“1”を有し、他の全ての行動a(j≠2)に対しては報酬値“0”を持つように、報酬を決定するのであってよい。 For example, the remuneration determining unit 406 determines that the SIM profile currently used by the user terminal 100 is the SIM profile SP 1 of the first mobile operator network MN 1 and the communication status of the first mobile operator network MN 1 is good. , then it has a reward value of "1" for action a1 , which is the action of selecting SIM profile SP1 , and a reward value of "1" for all other actions aj ( j ≠1). The reward may be determined so as to have 0”. Further, for example, the remuneration determining unit 406 determines that the SIM profile currently used by the user terminal 100 is the SIM profile SP 1 of the first mobile operator network MN 1 , but the communication status of the first mobile operator network MN 1 is If not good and the communication condition of the second mobile operator network MN 2 is good, reward for action a2 , which is the action of selecting the SIM profile SP2 corresponding to the second mobile operator network MN2 . The reward may be determined to have a value of "1" and to have a reward value of "0" for all other actions a j (j≠2).

SIMプロファイル切替装置400の送信部408は、報酬決定部406によって決定された報酬と、ユーザ端末100が行動をとったことによる遷移後のユーザ端末100の状態st+1とをユーザ端末100へ送信するように構成される。遷移後のユーザ端末100の状態st+1は、ユーザ端末情報管理部402において、現在の状態sおよび現在の状態sで選択した行動aを指定することにより、特定することができる。 The transmission unit 408 of the SIM profile switching device 400 transmits to the user terminal 100 the reward determined by the reward determination unit 406 and the state s t+1 of the user terminal 100 after transition due to the action of the user terminal 100. configured as The state s t+1 of the user terminal 100 after transition can be identified by specifying the current state s t and the action a i selected in the current state s t in the user terminal information management unit 402 .

なお、SIMプロファイル切替装置400とユーザ端末100との間の通信(ユーザ端末100からSIMプロファイル切替装置400へのユーザ端末情報の送信、ならびにSIMプロファイル切替装置400からユーザ端末100への報酬および遷移後の状態の送信)は、ユーザ端末100が現在使用しているモバイル事業者ネットワークのU-plane(ユーザプレーン)通信路を介して行われる。 Communication between SIM profile switching device 400 and user terminal 100 (transmission of user terminal information from user terminal 100 to SIM profile switching device 400, reward from SIM profile switching device 400 to user terminal 100, and post-transition state transmission) is performed via the U-plane (user plane) communication path of the mobile operator network currently used by the user terminal 100 .

ユーザ端末100の学習モデル102は、ユーザ端末100の状態と、SIMプロファイル切替装置400から与えられた報酬とに基づく強化学習により、最適なSIMプロファイルの選択を学習するように構成される。例えば、学習モデル102として、図5に示されるように、ユーザ端末100の状態sを入力層に入力し、状態sにおいてユーザ端末100がとることが可能な全ての行動(複数のSIMプロファイルのうちのいずれか1つのSIMプロファイルの選択)aのそれぞれについての行動価値Q(s,a)を出力層の各ノードから出力するように構成された、DQN(Deep Q-Network)に基づくニューラルネットワークを適用することができる。また、学習モデル102は、図6に示されるように、図5と同様の構成の2つのニューラルネットワーク(メインネットワークとターゲットネットワーク)を用いたFixed Target Q-Networkに基づくものであってもよい。図5のDQNおよび図6のFixed Target Q-Networkにおいて、出力層から出力される行動価値Q(s,a)とSIMプロファイル切替装置400から与えられる報酬とを用いてニューラルネットワークのパラメータ(重みおよび閾値)を更新することで、学習モデル102の学習が行われる。 The learning model 102 of the user terminal 100 is configured to learn to select the optimum SIM profile through reinforcement learning based on the state of the user terminal 100 and the reward given by the SIM profile switching device 400 . For example, as the learning model 102, as shown in FIG. 5, the state s t of the user terminal 100 is input to the input layer, and all actions (multiple SIM profiles Selection of any one SIM profile from) DQN (Deep Q-Network) configured to output the action value Q (s t , a t ) for each of a t from each node of the output layer can apply a neural network based on Also, the learning model 102, as shown in FIG. 6, may be based on a Fixed Target Q-Network using two neural networks (main network and target network) with the same configuration as in FIG. In the DQN of FIG. 5 and the Fixed Target Q-Network of FIG. 6 , the neural network parameters ( Learning of the learning model 102 is performed by updating the weights and thresholds).

ユーザ端末100のSIMプロファイル選択部104は、学習モデル102の出力に基づいてSIMプロファイルを選択するように構成される。例えば、SIMプロファイル選択部104は、ニューラルネットワークの出力層から出力される各行動aに対する行動価値Q(s,a)のうち最大の行動価値に対応するSIMプロファイルを、ユーザ端末100が使用するSIMプロファイルとして選択することができる。 A SIM profile selector 104 of the user terminal 100 is configured to select a SIM profile based on the output of the learning model 102 . For example, the SIM profile selection unit 104 selects the SIM profile corresponding to the maximum action value among the action values Q(s t , a t ) for each action at output from the output layer of the neural network . It can be selected as the SIM profile to use.

ユーザ端末100の通信部106は、SIMプロファイル選択部104によって選択されたSIMプロファイルを用いてモバイル事業者ネットワークのうちの1つと通信するように構成される。 The communication portion 106 of the user terminal 100 is configured to communicate with one of the mobile operator networks using the SIM profile selected by the SIM profile selection portion 104 .

図7は、モバイル通信システム10におけるSIMプロファイル切替装置400およびユーザ端末100の動作を示すフローチャートである。以下では、ユーザ端末100の学習モデル102がFixed Target Q-Networkに基づくニューラルネットワークとして構成される場合を例に説明を行う。なおユーザ端末100は現在、複数のモバイル事業者ネットワークのうちのJ番目のモバイル事業者ネットワークMNに対応するSIMプロファイルSPを使用して、モバイル事業者ネットワークMNに接続し通信を行っているものとする。 FIG. 7 is a flow chart showing operations of SIM profile switching device 400 and user terminal 100 in mobile communication system 10 . In the following, an example will be described in which the learning model 102 of the user terminal 100 is configured as a neural network based on the Fixed Target Q-Network. Note that the user terminal 100 is currently connecting to and communicating with the mobile operator network MN J using the SIM profile SP J corresponding to the J-th mobile operator network MN J among the plurality of mobile operator networks . It is assumed that there is

ステップ702において、ユーザ端末100の学習モデル102を構成するメインネットワークの入力層にユーザ端末100の状態sが入力される。状態sの入力を受け、学習モデル102は、ステップ704において、メインネットワークの出力層の各ノードから、ユーザ端末100が状態sにおいてSIMプロファイルSP~SP(ただし、Nは2以上の整数であり、ユーザ端末100に装着されているSIMカード110に保持されているSIMプロファイルの総数を表す)をそれぞれ選択した場合の行動価値Qmain(s,a)(i=1,2,…,N)を出力する。例えば、出力層のノード1からは、ユーザ端末100がSIMプロファイルSPを選択すなわち行動aを行った場合の行動価値Qmain(s,a)が出力され、ノード2からは、ユーザ端末100がSIMプロファイルSPを選択すなわち行動aを行った場合の行動価値Qmain(s,a)が出力され、以下同様である。なお、出力層のノード数はSIMカード110内のSIMプロファイルの数と同数である。 At step 702 , the state s t of the user terminal 100 is input to the input layer of the main network that constitutes the learning model 102 of the user terminal 100 . Upon receiving the input of state s t , learning model 102, in step 704, receives from each node of the output layer of the main network the user terminal 100 in state s t SIM profiles SP 1 to SP N (where N is 2 or more). is an integer and represents the total number of SIM profiles held in the SIM card 110 attached to the user terminal 100). , . . . , N). For example, node 1 in the output layer outputs the action value Q main (s t , a 1 ) when the user terminal 100 selects SIM profile SP 1 , that is, performs action a 1 , and node 2 outputs the user An action value Q main (s t , a 2 ) is output when the terminal 100 selects SIM profile SP 2 ie performs action a 2 , and so on. The number of nodes in the output layer is the same as the number of SIM profiles in SIM card 110 .

ここで、ユーザ端末100の学習モデル(メインネットワークおよびターゲットネットワーク)102は、ユーザ端末100が現在使用しているSIMプロファイルSPに対して最大の行動価値を出力するように学習が行われているものとする。続くステップ706において、ユーザ端末100は、ステップ704で得られた全ての行動価値のうち最大の行動価値Qmain(s,a)に対応する行動aと、ユーザ端末100の状態sとを含むユーザ端末情報を、現在使用しているモバイル事業者ネットワークのU-planeを介してSIMプロファイル切替装置400へ送信する。ステップ708において、SIMプロファイル切替装置400のユーザ端末情報管理部402は、このユーザ端末情報を取得する。 Here, the learning model (main network and target network) 102 of the user terminal 100 is trained so as to output the maximum action value for the SIM profile SP J currently used by the user terminal 100. shall be In subsequent step 706, the user terminal 100 selects the action a J corresponding to the maximum action value Q main (s t , a J ) among all the action values obtained in step 704 and the state s t of the user terminal 100 to the SIM profile switching device 400 via the U-plane of the currently used mobile operator network. At step 708, the user terminal information management section 402 of the SIM profile switching device 400 acquires this user terminal information.

次にステップ710において、SIMプロファイル切替装置400の通信状況管理部404は、モバイル通信システム10における複数のモバイル事業者ネットワークの各々についての通信状況を判定する。ステップ712において、SIMプロファイル切替装置400の報酬決定部406は、ユーザ端末情報管理部402からユーザ端末情報を、また通信状況管理部404から各モバイル事業者ネットワークの通信状況を取得し、ユーザ端末100が現在使用しているモバイル事業者ネットワークの通信状況が良好であるか否かに応じて、ユーザ端末100の学習モデル102を更新するための報酬Rt+1を決定する。例えば、ユーザ端末100が現在使用しているモバイル事業者ネットワークの通信状況が良好である場合は、そのモバイル事業者ネットワークのSIMプロファイルを選択する行動aに対する報酬値が最大となるように、またユーザ端末100が現在使用しているモバイル事業者ネットワークの通信状況が良好でない場合は、通信状況が良好な別の(例えばK(≠J)番目の)モバイル事業者ネットワークのSIMプロファイルを選択する行動aに対する報酬値が最大となるように、報酬Rt+1が決定される。 Next, at step 710 , the communication status manager 404 of the SIM profile switching device 400 determines the communication status for each of the multiple mobile operator networks in the mobile communication system 10 . In step 712, the remuneration determination unit 406 of the SIM profile switching device 400 acquires user terminal information from the user terminal information management unit 402 and the communication status of each mobile operator network from the communication status management unit 404. determines a reward R t+1 for updating the learning model 102 of the user terminal 100 according to whether the communication status of the mobile operator network currently used is good or not. For example, if the communication status of the mobile operator network currently used by the user terminal 100 is good, the reward value for the action a J of selecting the SIM profile of the mobile operator network is maximized, and When the communication conditions of the mobile operator network currently used by the user terminal 100 are not good, the action of selecting the SIM profile of another (eg, K (≠J)) mobile operator network with good communication conditions. A reward R t+1 is determined such that the reward value for a K is maximized.

次にステップ714において、SIMプロファイル切替装置400の送信部408は、ステップ712で決定された報酬Rt+1と、状態sにおいてユーザ端末100が行動aをとった場合における遷移後のユーザ端末100の状態st+1とをユーザ端末100へ送信する。さらにステップ716において、ユーザ端末100の学習モデル102に対する更新指示(後述参照)が、SIMプロファイル切替装置400からユーザ端末100へ送信される。 Next, in step 714, transmitting section 408 of SIM profile switching device 400 transmits reward R t+1 determined in step 712 and user terminal 100 after transition when user terminal 100 takes action a J in state s t . state s t+1 to the user terminal 100 . Furthermore, in step 716 , an instruction to update the learning model 102 of the user terminal 100 (see below) is sent from the SIM profile switching device 400 to the user terminal 100 .

次にステップ718において、学習モデル102の更新に用いる行動価値を得るため、ユーザ端末100の学習モデル102を構成するもう一方のニューラルネットワークであるターゲットネットワークの入力層に、ユーザ端末100の次の状態st+1が入力される。この入力を受け、ステップ720において、学習モデル102のターゲットネットワークは、ステップ704におけるメインネットワークと同様に、その出力層の各ノードから、状態st+1に関する各行動aの行動価値Qtarget(st+1,a)を出力する。 Next, in step 718 , in order to obtain the action value used to update the learning model 102 , the next state of the user terminal 100 is input to the input layer of the target network, which is the other neural network that constitutes the learning model 102 of the user terminal 100 . s t+1 is entered. Upon receiving this input, in step 720, the target network of the learning model 102, like the main network in step 704, generates the action value Q target (s t + 1 , a i ).

次にステップ722において、ターゲットネットワークから出力された行動価値を用いて、ユーザ端末100の学習モデル102におけるメインネットワークの更新が行われる。更新は、ステップ716でSIMプロファイル切替装置400からユーザ端末100へ送られた更新指示の内容に従う。更新指示の内容は、SIMプロファイル切替装置400の報酬決定部406によって決定された報酬Rt+1と連動している。具体的に、(A)ユーザ端末100が現在使用しているモバイル事業者ネットワークの通信状況が良好である場合は、ターゲットネットワークから出力された行動価値のうち最大の行動価値maxaitarget(st+1,a)=Qtarget(st+1,a)が、メインネットワークの更新に用いられる(maxaiは全てのとり得る行動aに関する最大値を表す)。一方、(B)ユーザ端末100が現在使用しているモバイル事業者ネットワークの通信状況が良好でない場合には、ターゲットネットワークから出力された行動価値のいずれが最大であるかにかかわらず、通信状況が良好なK番目のモバイル事業者ネットワークのSIMプロファイルに対応する行動価値Qtarget(st+1,a)が、メインネットワークの更新に用いられる。具体的な更新式は次のとおりである。メインネットワークは、次式の損失関数Eが最小になるように学習が行われる。 Next, in step 722, the main network in the learning model 102 of the user terminal 100 is updated using the action value output from the target network. The update follows the content of the update instruction sent from SIM profile switching device 400 to user terminal 100 in step 716 . The content of the update instruction is linked with the reward R t+1 determined by the reward determination unit 406 of the SIM profile switching device 400 . Specifically, (A) when the communication status of the mobile operator network currently used by the user terminal 100 is good, the maximum action value max ai Q target (s t+1 , a i )=Q target (s t+1 , a J ) is used to update the main network (max ai represents the maximum value for all possible actions a i ). On the other hand, (B) when the communication status of the mobile operator network currently used by the user terminal 100 is not good, regardless of which of the action values output from the target network is the maximum, the communication status is The behavioral value Q target (s t+1 ,a K ) corresponding to the SIM profile of the Kth good mobile operator network is used to update the main network. A specific update formula is as follows. The main network is trained so that the loss function E of the following equation is minimized.

Figure 0007284881000002
Figure 0007284881000002

ここで、γは時間割引率である。このように、ステップ722では、モバイル事業者ネットワークの通信状況に応じ、上式(1)または(2)に従って、ユーザ端末100の学習モデル102におけるメインネットワークの更新(すなわちニューラルネットワークのパラメータの調整)が行われる。その後、再びステップ702から722が繰り返され、メインネットワークの学習が進む。また所定回数の繰り返しごとに、ステップ722の後のステップ724において、ターゲットネットワークのパラメータがメインネットワークのパラメータと同期される。 where γ is the time discount rate. Thus, in step 722, the main network in the learning model 102 of the user terminal 100 is updated (that is, the parameters of the neural network are adjusted) according to the above equation (1) or (2) depending on the communication status of the mobile operator network. is done. Steps 702 to 722 are then repeated again to proceed with the training of the main network. Also, after step 722, in step 724, the parameters of the target network are synchronized with the parameters of the main network after every predetermined number of iterations.

このようにして学習された学習モデル102を用いて、ユーザ端末100は使用するSIMプロファイルの選択を行うことができる。具体的に、ステップ704に続いてステップ726へ進むことができ、このステップ726において、ユーザ端末100のSIMプロファイル選択部104は、ステップ704で得られた全ての行動価値Qmain(s,a)の中から最大の行動価値を選択し、その最大の行動価値に対応するSIMプロファイルを、最適なSIMプロファイルと決定する。次いで、ステップ728において、ユーザ端末100の通信部106は、SIMプロファイル選択部104によって選択されたSIMプロファイルを用いて、そのSIMプロファイルに対応するモバイル事業者ネットワークと通信する。こうして、ユーザ端末100は、SIMカード110に保持された複数のSIMプロファイルの中からモバイル事業者ネットワークの通信状況に応じた最適なSIMプロファイルを選択して、通信を行うことができる。 Using the learning model 102 learned in this way, the user terminal 100 can select a SIM profile to use. Specifically, step 704 can be followed by step 726, where the SIM profile selection unit 104 of the user terminal 100 selects all behavioral values Q main ( st ,a The maximum behavioral value is selected from i ), and the SIM profile corresponding to the maximum behavioral value is determined as the optimum SIM profile. Then, at step 728, the communication unit 106 of the user terminal 100 uses the SIM profile selected by the SIM profile selection unit 104 to communicate with the mobile operator network corresponding to that SIM profile. Thus, the user terminal 100 can perform communication by selecting an optimum SIM profile according to the communication status of the mobile operator's network from among multiple SIM profiles held in the SIM card 110 .

以上、本発明の実施形態を説明したが、本発明はこれに限定されず、その要旨を逸脱しない範囲内において様々な変更が可能である。 Although the embodiment of the present invention has been described above, the present invention is not limited to this, and various modifications can be made without departing from the scope of the invention.

10 モバイル通信システム
100 ユーザ端末
102 学習モデル
104 SIMプロファイル選択部
106 通信部
110 SIMカード
200 無線アクセスネットワーク
300 コアネットワーク
400 SIMプロファイル切替装置
402 ユーザ端末情報管理部
404 通信状況管理部
406 報酬決定部
408 送信部
500 インターネット
MN、MN モバイル事業者ネットワーク
SP、SP SIMプロファイル
10 mobile communication system 100 user terminal 102 learning model 104 SIM profile selection unit 106 communication unit 110 SIM card 200 radio access network 300 core network 400 SIM profile switching device 402 user terminal information management unit 404 communication status management unit 406 reward determination unit 408 transmission Part 500 Internet MN 1 , MN 2 Mobile Operator Network SP 1 , SP 2 SIM Profile

Claims (7)

マルチプロファイルSIMを備えたユーザ端末と、前記ユーザ端末が通信可能な複数のモバイル事業者ネットワークと、前記ユーザ端末および前記複数のモバイル事業者ネットワークと接続されたSIMプロファイル切替装置と、を備えるモバイル通信システムであって、
前記SIMプロファイル切替装置は、
前記複数のモバイル事業者ネットワークの各々についての通信状況を管理する通信状況管理部と、
前記複数のモバイル事業者ネットワークの各々の通信状況に基づいて、強化学習における報酬を決定する報酬決定部であって、前記報酬は、前記ユーザ端末が使用すべきSIMプロファイルの選択に関連する、報酬決定部と、
前記報酬を前記ユーザ端末へ送信する送信部と、を備え、
前記ユーザ端末は、
前記ユーザ端末の状態と前記報酬とに基づく強化学習により、最適なSIMプロファイルの選択を学習するように構成された学習モデルと、
前記学習モデルを用いて、前記ユーザ端末の状態に基づいてSIMプロファイルを選択するSIMプロファイル選択部と、
前記選択されたSIMプロファイルを用いて前記複数のモバイル事業者ネットワークのうちの1つと通信する通信部と、を備える、
モバイル通信システム。
A mobile communication comprising: a user terminal equipped with a multi-profile SIM; a plurality of mobile operator networks with which the user terminal can communicate; and a SIM profile switching device connected to the user terminal and the plurality of mobile operator networks. a system,
The SIM profile switching device,
a communication status management unit that manages the communication status of each of the plurality of mobile operator networks;
A reward determination unit that determines a reward in reinforcement learning based on the communication status of each of the plurality of mobile operator networks, wherein the reward is related to selection of a SIM profile to be used by the user terminal. a decision unit;
a transmission unit that transmits the reward to the user terminal;
The user terminal is
a learning model configured to learn optimal SIM profile selection by reinforcement learning based on the state of the user terminal and the reward;
a SIM profile selection unit that selects a SIM profile based on the state of the user terminal using the learning model;
a communication unit that communicates with one of the plurality of mobile operator networks using the selected SIM profile;
mobile communication system.
前記報酬決定部は、前記ユーザ端末が現在使用しているSIMプロファイルに対応するモバイル事業者ネットワークの通信状況が良好な場合は、当該SIMプロファイルに対する報酬値が最大となるように、前記報酬を決定する、請求項1に記載のモバイル通信システム。 The remuneration determination unit determines the remuneration so that the remuneration value for the SIM profile currently used by the user terminal is maximized when the communication status of the mobile operator network corresponding to the SIM profile currently used by the user terminal is good. The mobile communication system according to claim 1, wherein: 前記報酬決定部は、前記ユーザ端末が現在使用しているSIMプロファイルに対応するモバイル事業者ネットワークの通信状況が良好でなく、他のモバイル事業者ネットワークの通信状況が良好である場合は、当該他のモバイル事業者ネットワークに対応するSIMプロファイルに対する報酬値が最大となるように、前記報酬を決定する、請求項2に記載のモバイル通信システム。 If the communication status of the mobile operator network corresponding to the SIM profile currently used by the user terminal is not good, and the communication status of another mobile operator network is good, the remuneration determination unit 3. The mobile communication system according to claim 2, wherein said reward is determined so as to maximize the reward value for a SIM profile corresponding to a mobile operator network of . 前記学習モデルは、前記ユーザ端末の状態sを入力とし、複数のSIMプロファイルのうち各SIMプロファイルを選択する行動aを行った場合における行動価値Q(s,a)を出力とする、深層強化学習に基づくニューラルネットワークにより構成されたモデルである、請求項1から3のいずれか1項に記載のモバイル通信システム。 The learning model takes as input the state s t of the user terminal and outputs an action value Q(s t , at ) when an action at of selecting each SIM profile from among a plurality of SIM profiles is performed. , a model constructed by a neural network based on deep reinforcement learning. 前記学習モデルは、前記ユーザ端末が現在使用しているSIMプロファイルに対応するモバイル事業者ネットワークの通信状況が良好な場合は、前記ニューラルネットワークから出力される複数の行動価値のうち最大の行動価値を用いて、学習が行われる、請求項4に記載のモバイル通信システム。 The learning model selects the maximum action value among the plurality of action values output from the neural network when the communication status of the mobile operator network corresponding to the SIM profile currently used by the user terminal is good. 5. The mobile communication system according to claim 4, wherein learning is performed using. 前記学習モデルは、前記ユーザ端末が現在使用しているSIMプロファイルに対応するモバイル事業者ネットワークの通信状況が良好でなく、他のモバイル事業者ネットワークの通信状況が良好である場合は、前記ニューラルネットワークから出力される複数の行動価値のうち当該他のモバイル事業者ネットワークのSIMプロファイルに対応する行動価値を用いて、学習が行われる、請求項5に記載のモバイル通信システム。 When the communication status of the mobile operator network corresponding to the SIM profile currently used by the user terminal is not good, and the communication status of other mobile operator networks is good, the learning model uses the neural network 6. The mobile communication system according to claim 5, wherein learning is performed using a behavior value corresponding to the SIM profile of the other mobile operator network among the plurality of behavior values output from. マルチプロファイルSIMを備えたユーザ端末と、前記ユーザ端末が通信可能な複数のモバイル事業者ネットワークと、前記ユーザ端末および前記複数のモバイル事業者ネットワークと接続されたSIMプロファイル切替装置と、を備えるモバイル通信システムにおける通信方法であって、
前記SIMプロファイル切替装置が、前記複数のモバイル事業者ネットワークの各々についての通信状況を取得するステップと、
前記SIMプロファイル切替装置が、前記複数のモバイル事業者ネットワークの各々の通信状況に基づいて、強化学習における報酬を決定するステップであって、前記報酬は、前記ユーザ端末が使用すべきSIMプロファイルの選択に関連する、ステップと、
前記SIMプロファイル切替装置が、前記報酬を前記ユーザ端末へ送信するステップと、
前記ユーザ端末が、前記ユーザ端末の状態と前記報酬とに基づく強化学習により、最適なSIMプロファイルの選択を学習モデルに学習させるステップと、
前記ユーザ端末が、前記学習モデルを用いて、前記ユーザ端末の状態に基づいてSIMプロファイルを選択するステップと、
前記ユーザ端末が、前記選択されたSIMプロファイルを用いて前記複数のモバイル事業者ネットワークのうちの1つと通信するステップと、
を含む通信方法。
A mobile communication comprising: a user terminal equipped with a multi-profile SIM; a plurality of mobile operator networks with which the user terminal can communicate; and a SIM profile switching device connected to the user terminal and the plurality of mobile operator networks. A method of communication in a system, comprising:
the SIM profile switching device acquiring communication status for each of the plurality of mobile operator networks;
A step in which the SIM profile switching device determines a reward in reinforcement learning based on the communication status of each of the plurality of mobile operator networks, wherein the reward is the selection of a SIM profile to be used by the user terminal. a step associated with
the SIM Profile Switcher transmitting the reward to the user terminal;
the user terminal having a learning model learn to select an optimal SIM profile by reinforcement learning based on the state of the user terminal and the reward;
the user terminal using the learning model to select a SIM profile based on the state of the user terminal;
the user terminal communicating with one of the plurality of mobile operator networks using the selected SIM profile;
communication methods, including
JP2023072960A 2023-04-27 2023-04-27 Mobile communication system and communication method Active JP7284881B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023072960A JP7284881B1 (en) 2023-04-27 2023-04-27 Mobile communication system and communication method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2023072960A JP7284881B1 (en) 2023-04-27 2023-04-27 Mobile communication system and communication method

Publications (1)

Publication Number Publication Date
JP7284881B1 true JP7284881B1 (en) 2023-05-31

Family

ID=86538344

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023072960A Active JP7284881B1 (en) 2023-04-27 2023-04-27 Mobile communication system and communication method

Country Status (1)

Country Link
JP (1) JP7284881B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7407329B1 (en) * 2023-10-04 2023-12-28 株式会社インターネットイニシアティブ Flight guidance device and flight guidance method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160066198A (en) * 2014-12-02 2016-06-10 삼성전자주식회사 Method for managing profile and electronic device supporting thereof
CN209089240U (en) * 2018-08-17 2019-07-09 上海小镜信息科技有限公司 Plurality of SIM cards multi-operator network integration system
JP2023515277A (en) * 2020-02-25 2023-04-12 シーエスエル デュアルコム リミテッド Autonomous and resilient integrated circuit device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160066198A (en) * 2014-12-02 2016-06-10 삼성전자주식회사 Method for managing profile and electronic device supporting thereof
CN209089240U (en) * 2018-08-17 2019-07-09 上海小镜信息科技有限公司 Plurality of SIM cards multi-operator network integration system
JP2023515277A (en) * 2020-02-25 2023-04-12 シーエスエル デュアルコム リミテッド Autonomous and resilient integrated circuit device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7407329B1 (en) * 2023-10-04 2023-12-28 株式会社インターネットイニシアティブ Flight guidance device and flight guidance method

Similar Documents

Publication Publication Date Title
El Helou et al. A network-assisted approach for RAT selection in heterogeneous cellular networks
CN110809306B (en) Terminal access selection method based on deep reinforcement learning
CN113839797B (en) Data processing method and device
RU2480955C2 (en) Method and device for improvement of rss for mobility based on flows
CN104170420B (en) The method and its device of open wireless pipe ability
CN107580360A (en) A kind of network is cut into slices method, equipment and the network architecture of selection
US20100329205A1 (en) Service continuity during outbound handover from a home network base station with local internet protocol access
CN102238682B (en) Heterogeneous-convergence-network-based network selection method
JP7284881B1 (en) Mobile communication system and communication method
CN101720079A (en) Service access method and tactical convergence system in network element tactical convergence network
CN110505662B (en) Policy control method, device and system
CN110381548A (en) A kind of communication means and relevant device
Do et al. Latency-aware placement for state management functions in service-based 5G mobile core network
Ali et al. Network selection in heterogeneous access networks simultaneously satisfying user profile and QoS
Lien et al. Intelligent session management for URLLC in 5G open radio access network: A deep reinforcement learning approach
CN104541552B (en) Management according to telephone expenses service condition to being roamed in communication network
CN110009061B (en) AP self-adaptive optimization selection method based on machine learning
CN113259924A (en) Private network subscription information updating method and device
CN109196895A (en) A kind of message transmitting method, apparatus and system
WO2023039905A1 (en) Ai data transmission method and apparatus, device, and storage medium
EP2028907A1 (en) Method and apparatus for forwarding of condensed information about a user equipment between base stations
CN1886961B (en) Method and system for re-establishing context of data packet flows
CN116846771A (en) Service operation method, device, terminal and readable storage medium
CN107517455A (en) Transmission method and device, MME, SGSN of SGwU addresses
US20050119013A1 (en) Mobile telecommunication system and method using separate subscriber location information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230427

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230518

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230519

R150 Certificate of patent or registration of utility model

Ref document number: 7284881

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150