JP7302022B2 - テキスト分類方法、装置、コンピュータ読み取り可能な記憶媒体及びテキスト分類プログラム。 - Google Patents

テキスト分類方法、装置、コンピュータ読み取り可能な記憶媒体及びテキスト分類プログラム。 Download PDF

Info

Publication number
JP7302022B2
JP7302022B2 JP2021569247A JP2021569247A JP7302022B2 JP 7302022 B2 JP7302022 B2 JP 7302022B2 JP 2021569247 A JP2021569247 A JP 2021569247A JP 2021569247 A JP2021569247 A JP 2021569247A JP 7302022 B2 JP7302022 B2 JP 7302022B2
Authority
JP
Japan
Prior art keywords
text
vector
vectors
labeled
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021569247A
Other languages
English (en)
Other versions
JP2022534377A (ja
Inventor
翔 張
修銘 于
京華 劉
偉 汪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Publication of JP2022534377A publication Critical patent/JP2022534377A/ja
Application granted granted Critical
Publication of JP7302022B2 publication Critical patent/JP7302022B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/091Active learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本願は、2019年10月11日に中国国家知識産権局に提出された、出願番号201910967010.5、発明の名称「テキスト分類方法、装置及びコンピュータ読み取り可能な記憶媒体」の中国特許出願の優先権を主張し、その内容のすべてが参照によって本願に組み込まれる。
本願は人工知能の技術分野に関し、特に深層学習の方法によりテキストに対してラベル分類を行う方法、装置及びコンピュータ読み取り可能な記憶媒体に関する。
現在、マルチラベルテキスト分類の方法として、確率が最も高い3つ又は5つのラベルを選択してテキスト分類を行うことは一般的であり、ただし、ラベルの数は予め約束する必要がある。しかし、実際の状況では、あるテキストにはいずれのラベルも存在しないことがある。ラベルの数がゼロの場合、従来の方法によりキャッチされた情報の階層が低く、ラベル認識及び分類を正確に行うことが困難であり、したがって、分類精度が低い。
本願は、テキスト分類方法、装置及びコンピュータ読み取り可能な記憶媒体を提供するものであり、オリジナルのテキストデータセットに対して深層学習を行うことによりラベル分類を行う方法を提供することにその主な目的がある。
上記目的を達成するために、本願で提供されるテキスト分類方法は、オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得るステップと、前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップと、前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得するステップと、前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得るステップと、ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベルラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得るステップと、を含む。
また、上記目的を達成するために、本願は、メモリとプロセッサとを含むテキスト分類装置であって、前記メモリに前記プロセッサで実行可能なテキスト分類プログラムが記憶されており、前記テキスト分類プログラムが前記プロセッサにより実行されると、オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得るステップと、前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップと、前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得するステップと、前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得るステップと、ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベルラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得るステップと、を実現させるテキスト分類装置をさらに提供する。
また、上記目的を達成するために、本願は、テキスト分類プログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記テキスト分類プログラムは1つ以上のプロセッサにより実行されて上記テキスト分類方法のステップを実現するコンピュータ読み取り可能な記憶媒体をさらに提供する。
本願は前記オリジナルのテキストデータに対して前処理を行うことで、オリジナルのテキストデータに属する可能性がある単語を効果的に抽出することができ、さらに、単語のベクトル化及び仮想ラベルのマッチングにより、特徴の精度を損なわないとともに、テキスト分類分析を効率的、かつスマートに行うことができ、最後に、予め構築された畳み込みニューラルネットワークモデルに基づいてテキストラベルを訓練して仮想ラベルを得て、ランダムフォレストモデルを用いてラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルに対してマルチラベル分類を行ってテキスト分類結果を得る。したがって、本願で提供されるテキスト分類方法、装置及びコンピュータ読み取り可能な記憶媒体は、正確で効率的であり、かつ一貫しているテキスト分類を実現することができる。
本願の実施例で提供されるテキスト分類方法のフローチャートである。 本願の実施例で提供されるテキスト分類装置の構造概略図である。 本願の実施例で提供されるテキスト分類装置におけるテキスト分類プログラムのブロック図である。 実施例に合わせて、図面を参照しながら本願の目的の実現、機能特徴及び利点をさらに説明する。
本明細書に説明される具体的な実施例は本願を説明するためのものに過ぎず、本願を限定するものではない。
本願はテキスト分類方法を提供する。図1に示すように、本願の実施例で提供されるテキスト分類方法のフローチャートである。この方法は1つの装置により実行されてもよく、この装置はソフトウェア及び/又はハードウェアにより実現されてもよい。
本実施例では、テキスト分類方法はS1~S5を含む。
S1において、ユーザから入力されたオリジナルのテキストデータを受信し、前記オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得る。
好ましくは、前記前処理は前記オリジナルのテキストデータに対して単語分割、ストップワード除去、重複除去、単語ベクトル形式への変換を行うことを含む。
具体的には、本願の好ましい実施例は前記オリジナルのテキストデータに対して単語分割操作を行って第2のテキストデータを得る。ただし、前記単語分割とは、前記オリジナルのテキストデータにおける各文を切り分けて単一の語を得ることである。
一例として、本願の実施例はユーザから入力された前記オリジナルのテキストデータである「北大学生去清華打羽毛球」を例とし、統計に基づく単語分割方法を用い、前記オリジナルのテキストデータに対して単語分割操作を行って第2のテキストデータを得るプロセスについて説明する。
一例として、前記オリジナルのテキストデータの文頭から「北大学生去清華打羽毛球」中の文字列が「北大」、「大学生」、「北大学生」、「清華」、「去」、「羽毛球」、「打羽毛球」、「去清華」などの単語の組み合わせに分割される可能性があるとする。すべてのコーパスにおいて、「北大」の出現頻度が「北大学生」、「大学生」よりも高いため、統計に基づく単語分割方法は「北大」を優先的に1つの単語分割結果とする。続いて、「打」と「去」は単語を組み合わせることができないため、「打」を1つの単語分割結果とし、「去」を1つの単語分割結果とする。「北大」と「学生」の組み合わせの出現確率が「北大学」の出現確率よりも高いため、「学生」を1つの単語分割結果とし、「北大」を1つの単語分割結果とし、また、「清華」を1つの単語分割結果とする。「羽毛球」という組み合わせの出現確率が「羽毛」及び/又は「球」の出現確率よりも高いため、「羽毛球」を1つの単語分割結果とする。最終的に、統計に基づく単語分割方法により取得された前記オリジナルのテキストデータである「北大学生去清華打羽毛球」の第2の単語分割結果は、「北大」、「学生」、「去」、「清華」、「打」、「羽毛球」である。
好ましくは、本願の可能な実施形態において、さらに前記第2のテキストデータに対してストップワード除去操作を行って第3のテキストデータを得る。ただし、前記ストップワード除去とは前記オリジナルのテキストデータにおける、実際の意味がなくかつテキストの分類に影響を与えないが出現頻度が高い単語を除去することである。前記ストップワードは、一般的に、常用の代名詞、介詞などを含む。研究によると、実際の意味がないストップワードは、テキスト分類の効果を低下させることになるため、ストップワード除去はテキストデータの前処理過程における非常に重要なステップの1つである。本願の実施例では、選択されたストップワード除去方法はストップワードリストフィルタリングであり、前記ストップワードリストフィルタリングとは、既に構築されたストップワードリストとテキスト中の単語を一対一でマッチングさせ、マッチングが成功すれば、この単語はストップワードであり、この単語を削除する必要があることである。例えば、単語分割後の第2のテキストデータは、「商品経済の環境下で、これらの企業は市場の状況に基づき、合格的な販売モードを定めて、市場でのシェア拡大を獲得し、これにより販売の価格を安定させ、また製品の競争能力を向上させる。したがって、実行可能性分析、マーケティングモード研究が必要である」である。
この第2のテキストデータに対してさらにストップワード除去を行って得られた第3のテキストデータは、「商品経済環境、企業は市場状況に基づき、合格販売モードを定め、市場シェア拡大を獲得し、販売価格を安定させ、製品競争能力を向上させる。したがって、実行可能性分析、マーケティングモード研究」である。
好ましくは、本願の可能な一実施形態において、さらに前記第3のテキストデータに対して重複除去操作を行って第4のテキストデータを得る。
具体的には、収集されたテキストデータの由来が複雑であり、その中に重複するテキストデータが多く存在する可能性があり、大量の重複するデータは分類精度に影響を与えることになるため、本願の実施例では、テキストを分類する前に、まずユークリッド距離の方法を用いてテキストに対して前記重複除去操作を行い、その式は以下のとおりである。
Figure 0007302022000001
Figure 0007302022000002
単語分割、ストップワード除去、重複除去を経た後、テキストは一連の特徴単語(キーワード)で表されるが、このようなテキスト形式のデータは分類アルゴリズムにより直接処理することができず、数値形式に変換すべきであり、したがって、これらの特徴単語に対して重み計算を行うことで、この特徴単語のテキストにおける重要性を特徴付ける必要がある。
好ましくは、本願の可能な一実施形態において、さらに前記第4のテキストデータに対して単語ベクトル形式への変換を行って前記テキストベクトルを得る。例えば、前記第4のテキストデータは「私と君」である。単語ベクトルへの変換により、文字をベクトル形式に変換してテキストベクトル[(1,2)、(0,2)、(3,1)]を得る。
好ましくは、前記単語ベクトル形式への変換とは、前記オリジナルのテキストデータに対して単語分割、ストップワード除去、重複除去を行った後に得られた前記第4のテキストデータ中のいずれか1つの単語をN次元の行列ベクトルで表すことであり、ここで、Nは合計して前記第4のテキストデータに含まれる単語の数であり、本願では、以下の式を用いて単語に対して初期的なベクトル化を行う。
Figure 0007302022000003
Figure 0007302022000004
S2において、前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得る。
好ましくは、前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップは以下のステップS201~S204を含む。
ステップS201において、前記テキストベクトルに対してインデックスを作成する。例えば、テキストベクトル[(1,2)、(0,2)、(3,1)]は、(1,2)、(0,2)及び(3,1)の3つの次元のデータを含む。この場合、この3つの次元に基づいて、各次元でインデックスをそれぞれ作成して、この次元における前記テキストベクトルのマークとする。
ステップS202において、前記インデックスにより、前記テキストベクトルを照会し、品詞付けを行う。例えば、インデックスによりテキストベクトルのある次元における特性を推定することができ、同じ次元の特性は同じ品詞に対応する。例えば、「犬」と「刀」の品詞はいずれも名詞であり、これらのある次元(x次元と仮定する)におけるインデックスが一致し、いずれも名詞性を指す。それに対応して、インデックスによると、ある特定のテキストベクトルの品詞を照会し、このテキストベクトルに対して品詞付けを行うことができる。例えば、前記第4のテキストデータは「打」であり、テキストベクトルに変換すると、[(0,2)、(7,2)、(10,1)]になる。まず、[(0,2)、(7,2)、(10,1)]に対してインデックスを作成し、インデックスによりこの次元に対応する品詞を照会して動詞とし、テキストベクトル[(0,2)、(7,2)、(10,1)]に対して品詞を動詞として付ける。
ステップS203において、前記品詞付けに基づいてテキストの特徴語義ネットワーク図を作成し、テキストの単語頻度とテキスト頻度を統計し、続いて前記単語頻度とテキスト頻度に対して重み付け計算と特徴抽出を行って前記ラベルを得る。
具体的には、前記テキストの特徴語義ネットワーク図とは、テキスト及びその語義関係を利用してテキスト特徴情報を表現する有向グラフであり、テキストベクトルに含まれるラベルをグラフのノードとし、2つのテキストベクトルの間の語義関係をグラフの有向辺とし、テキストベクトルの間の語義関係を単語頻度情報に合わせてノードの重みとし、有向辺の重みはテキストベクトル関係のテキストにおける重要度を表す。テキストの特徴語義ネットワーク図によると、本願はテキストベクトルに対して特徴抽出を行って前記ラベルを得ることができる。
ステップS204において、前記ラベルをテキストベクトルにマッチングさせてラベル付きのテキストベクトルを得て、ただし、前記テキストベクトルはラベルマッチング処理を経た後に得たラベルが空であれば、ラベルなしのテキストベクトルとして決定される。
本願の一実施形態では、前記ラベルマッチングとは、前記テキストベクトルが上記ステップS201、202、203を経た後に得たラベルとオリジナルのテキストベクトルが互いにマッチングすることである。例えば、テキストベクトル[(10,2)、(7,8)、(10,4)]は上記ステップS201、202、203を経た後に得たラベルがθ(ラベルの特徴はユーザのニーズに応じて選択して定義することができ、ここでアルファベットを指示例とする)であると、θをテキストベクトル[(10,2)、(7,8)、(10,4)]にマッチングさせる。同様に、テキストベクトル[(0,0)、(0,0)、(1,4)]は上記ステップS201、202、203を経た後に得たラベルが空である場合、[(0,0)、(0,0)、(1,4)]をラベルなしのテキストベクトルとして決定することが分かる。
さらに、前記ラベルをテキストベクトルにマッチングさせてラベル付きのテキストベクトルを得て、ただし、前記テキストベクトルは上記処理を経た後に得たラベルが空であれば、ラベルなしのテキストベクトルとして決定される。
S3において、前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得する。
本願の実施例では、前記ラベル付きのテキストベクトルをBERTモデルに入力して単語ベクトル特徴を取得するステップは以下のステップS301~S302を含む。
ステップS301において、前記BERTモデルを作成する。
本願における前記BERTモデルとは、Bidirectional Encoder Representations from Transformers(トランスフォーマーを活用した双方向のエンコード表現)であり、双方向Transformer(トランスフォーマー)で構成される特徴抽出モデルである。具体的には、例えば文のx=x1、x2…、xnがあり、ここで、x1、x2などは文中の具体的な文字である。前記BERTモデルは文中の各文字に対してToken Embedding、Segment Embedding、Position Embeddingの3つの入力層の入力表現を用いて加算して入力特徴を得て、Masked Language ModelとNext Sentence Predictionを最適化目標として用い、文字の3種類の入力表現を最適化し、ただし、Masked Language ModelとNext Sentence PredictionはBERTモデルにおける2種類の典型的なアルゴリズムタイプである。
ステップS302において、ラベル付きのテキストベクトルを前記BERTモデルに入力し、前記BERTモデルを訓練して文字ベクトル特徴を取得するステップであって、
位置エンコードを用いてラベル付きのテキストベクトルに位置情報を付加し、初期的な単語ベクトルで前記位置情報が付加されたラベル付きのテキストベクトルを表すステップと、
ラベル付きのテキストベクトルの品詞を取得し、前記品詞を品詞ベクトルに変換するステップと、
前記初期的な単語ベクトルと前記品詞ベクトルを加算し、前記ラベル付きのテキストベクトルの単語ベクトルを得るステップと、
前記単語ベクトルで表されたラベル付きのテキストベクトルをTransformerモデルに入力してデータ処理を行い、前記ラベル付きのテキストベクトルの単語行列を得るステップと、
前記単語行列を用いて、前記ラベル付きのテキストベクトルにおける2つの文が前後文であるか否か、2つの文中の隠し単語及び前記隠し単語の品詞特徴を予測するステップと、を含む。前記BERTモデルを訓練することにより、前記BERTモデルに入力されたテキストベクトルに1つの対応する品詞特徴を予測させることができ、品詞特徴に対して正規化処理を行って前記文字ベクトル特徴を得る。
S4において、前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る。
好ましくは、本願は以下のステップを採用して前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る。
文字ベクトル特徴はラベル付きのテキストベクトルをBERTモデルに入力し、BERTモデルを訓練して得られるものである。そのため、文字ベクトル特徴はラベルに必要な特徴を含み、前記文字ベクトルの特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練することで、文字ベクトル特徴の特徴を抽象化し、ラベルなしのテキストベクトルに適切な特徴をマッチングさせ、さらに仮想ラベルをマッチングさせることができる。例えば、前のステップにおいて、ラベルなしのテキストベクトルは[(0,2)、(0,0)、(0,4)]であり、それを前記畳み込みニューラルネットワークモデルに入力して訓練し、ラベル付きのテキストベクトル[(2,2)、(2,2)、(0,4)]はBERTモデルの訓練を経て得た文字ベクトル特徴がAである。前記畳み込みニューラルネットワークモデルにより、ラベルなしのテキストベクトル[(0,2)、(0,0)、(0,4)]と文字ベクトル特徴Aが関連性を有することが認識される。したがって、文字ベクトル特徴Aに基づいて、ラベル付きのテキストベクトル[(2,2)、(2,2)、(0,4)]を見つけ、そのラベルをγとして確認する。ラベルγに基づいて正規化処理を行って前記仮想ラベルを得る。前記仮想ラベルを前記ラベルなしのテキストベクトルにマッチングさせ、仮想ラベル付きのテキストベクトルを得る。
本願の好ましい実施例では、前記ラベルなしのテキストを前記畳み込みニューラルネットワークモデルの畳み込み層により処理し訓練し、訓練後の畳み込みニューラルネットワークモデルを得るには、訓練方法として勾配降下アルゴリズムが採用される。
S5において、ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得る。
具体的には、本願の一実施例では、前記ランダムフォレストアルゴリズムはバギングアルゴリズムの復元サンプリングアルゴリズムを用いて、前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルから複数のサンプルサブセットを抽出し、前記サンプルサブセットを用いて複数の決定木モデルを訓練し、訓練過程においてランダム特徴部分空間法を参考し、単語ベクトル集合から一部の単語ベクトル特徴を抽出して決定木の分割を行い、最後に複数の決定木を統合して統合分類器を成し、この統合分類器をランダムフォレストと呼ぶ。そのアルゴリズムフローは、サブサンプルセットの生成、決定木の構築、投票による結果の生成の3つの部分に分けられ、その具体的なフローは以下のとおりである。
ステップS501は、サブサンプルセットの生成である。
ランダムフォレストは、各ベース分類器に対して、ベース分類器の入力変数として一定のサンプルサブセットを生成する必要がある統合分類器である。評価モデルを両立させるために、サンプルセットの分割には複数の方式があり、本願の実施例では、相互認証の方式を用いてデータセットを分割し、前記相互認証は訓練しようとするテキストを文字数に応じて、k(kはゼロより大きい任意の自然数である)個のサブデータセットに分割し、訓練するたびに、そのうちの1つのサブデータセットをテストセットとし、他のサブデータセットを訓練セットとし、k回入れ替わりしてステップを行う。
ステップS502は、決定木の構築である。
ランダムフォレストでは、各ベース分類器は1つの独立した決定木である。決定木の構築過程において、最終分類の精度を向上させるように、分割ルールを利用して最適な特徴を探してサンプルを分割しようとする。ランダムフォレストの決定木と一般的な決定木は構築方式が基本的に一致し、異なる点として、ランダムフォレストの決定木は分割を行う時に、特徴セット全体を検索して特徴を選択することではなく、特徴をk(kはゼロより大きい任意の自然数である)個ランダムに選択して分割することである。本願の実施例では、各テキストベクトルを決定木の根とし、上述した畳み込みニューラルネットワークを用いて得られたテキストベクトルラベルの特徴を決定木のサブノードとし、その下のノードをそれぞれ再抽出された特徴とすることにより、各決定木を訓練する。
ただし、分割ルールとは、決定木の分割時に係る具体的なルールである。例えば、どの特徴を選択するか、分割の条件が何であるか、また、いつ分割を終了するかが分かる必要がある。決定木の生成が相対的に短絡するため、分割ルールによりそれを調整してはじめて、それをよりよく見えるようにすることができる。
ステップS503は、投票による結果の生成である。ランダムフォレストの分類結果は決定木である各ベース分類器が投票を行って得られるものである。ランダムフォレストはベース分類器を同等に扱い、各決定木は1つの分類結果を得て、すべての決定木の投票結果を集めて累積加算し、投票数が最も高い結果を最終結果とする。これにより、各決定木(ラベル分類を必要とするテキストベクトル)の各サブノード(ラベル)のスコア状況に基づいて、このラベルのスコアが本願に設定された閾値tを超えると、このラベルはこのテキストベクトルを解釈できると考えられ、それによりこのテキストベクトルのすべてのラベルを取得する。ただし、閾値tの確認方式は、この決定木のすべての分類器の投票結果の累積*0.3である。
さらに、前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルのランダムフォレストアルゴリズムによる投票結果に対して重みソートを行い、重み値が最も大きい投票結果をカテゴリキーワードとし、前記カテゴリキーワードの間の語義関係を利用し、分類結果、すなわち前記テキストベクトルのテキスト分類結果を形成する。
発明はテキスト分類装置をさらに提供する。図2に示すように、本願の実施例で提供されるテキスト分類装置の構造概略図である。
本実施例では、前記テキスト分類装置1はPC(Personal Computer、パソコン)、又はスマートフォン、タブレットコンピュータ、ポータブルコンピュータなどの端末装置であってもよく、サーバなどであってもよい。このテキスト分類装置1は、少なくともメモリ11と、プロセッサ12と、通信バス13と、ネットワークインタフェース14とを含む。
そのうち、メモリ11は少なくとも1種類の読み取り可能な記憶媒体を含み、前記読み取り可能な記憶媒体はフラッシュメモリ、ハードディスク、マルチメディアカード、カード型メモリ(例えば、SD又はDXメモリなど)、磁気メモリ、磁気ディスク、光ディスクなどを含む。いくつかの実施例では、メモリ11はテキスト分類装置1の内部記憶ユニット、例えばこのテキスト分類装置1のハードディスクであってもよい。他のいくつかの実施例では、メモリ11はテキスト分類装置1の外部記憶装置、例えばテキスト分類装置1に配置された外付けハードディスク、スマートメモリカード(Smart Media(登録商標) Card、SMC)、セキュアデジタル(Secure Digital、SD)カード、フラッシュメモリカード(Flash Card)などであってもよい。さらに、メモリ11は、テキスト分類装置1の内部記憶ユニットも、外部記憶装置も含んでもよい。メモリ11は、テキスト分類装置1にインストールされたアプリケーションソフトウェア及び各種のデータ、例えばテキスト分類プログラム01のコードなどを記憶するために用いることができるだけでなく、さらに既に出力された、又は出力されるデータを一時的に記憶するために用いることができる。
いくつかの実施形態では、プロセッサ12は、例えば、テキスト分類プログラム01を実行するなど、メモリ11に記憶されたプログラムコード又は処理データを実行するための中央処理装置(Central Processing Unit、CPU)、コントローラ、マイクロコントローラ、マイクロプロセッサ、又は他のデータ処理チップであってもよい。
通信バス13は、これらのコンポーネント間の接続通信を実現するためのものである。
ネットワークインタフェース14は、選択可能に、この装置1と他の電子機器との間に通信可能な接続を確立するために通常使用される標準的な有線インタフェース、無線インタフェース(例えば、WI-FIインタフェース)を含んでもよい。
選択可能に、この装置1はユーザインタフェースをさらに含んでもよく、ユーザインタフェースはディスプレイ(Display)、例えばキーボード(Keyboard)のような入力ユニットを含んでもよく、選択可能なユーザインタフェースは標準的な有線インタフェース、無線インタフェースをさらに含んでもよい。選択可能に、いくつかの実施例では、ディスプレイはLEDディスプレイ、液晶ディスプレイ、タッチ式液晶ディスプレイ及びOLED(Organic Light-Emitting Diode、有機発光ダイオード)タッチデバイスなどであってもよい。ただし、ディスプレイは、テキスト分類装置1において処理される情報を表示し、可視化されたユーザインタフェースを表示するためのディスプレイスクリーン又はディスプレイユニットと適当に呼ばれてもよい。
図2はコンポーネント11-14及びテキスト分類プログラム01を有するテキスト装置1のみを示すが、当業者であれば、図1に示された構造は、テキスト分類装置1を限定するものではなく、図示されたものよりも多い又は少ない部材を含み、或いは、何らかの部材を組み合わせ、或いは異なる部材配置にするようにしてもよいことを理解することができる。
図2に示す装置1の実施例では、メモリ11にテキスト分類プログラム01が記憶されており、プロセッサ12はメモリ11に記憶されているテキスト分類プログラム01を実行すると、以下のステップ1からステップ5を実現させる。
ステップ1において、ユーザから入力されたオリジナルのテキストデータを受信し、前記オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得る。
好ましくは、前記前処理は前記オリジナルのテキストデータに対して単語分割、ストップワード除去、重複除去、単語ベクトル形式への変換を行うことを含む。
具体的には、本願の好ましい実施例は前記オリジナルのテキストデータに対して単語分割操作を行って第2のテキストデータを得る。ただし、前記単語分割とは、前記オリジナルのテキストデータにおける各文を切り分けて単一の語を得ることである。
一例として、本願の実施例はユーザから入力された前記オリジナルのテキストデータである「北大学生去清華打羽毛球」を例とし、統計に基づく単語分割方法を用い、前記オリジナルのテキストデータに対して単語分割操作を行って第2のテキストデータを得るプロセスについて説明する。
一例として、前記オリジナルのテキストデータの文頭から「北大学生去清華打羽毛球」中の文字列が「北大」、「大学生」、「北大学生」、「清華」、「去」、「羽毛球」、「打羽毛球」、「去清華」などの単語の組み合わせに分割される可能性があるとする。すべてのコーパスにおいて、「北大」の出現頻度が「北大学生」、「大学生」よりも高いため、統計に基づく単語分割方法は「北大」を優先的に1つの単語分割結果とする。続いて、「打」と「去」は単語を組み合わせることができないため、「打」を1つの単語分割結果とし、「去」を1つの単語分割結果とする。「北大」と「学生」の組み合わせの出現確率が「北大学」の出現確率よりも高いため、「学生」を1つの単語分割結果とし、「北大」を1つの単語分割結果とし、また、「清華」を1つの単語分割結果とする。「羽毛球」という組み合わせの出現確率が「羽毛」及び/又は「球」の出現確率よりも高いため、「羽毛球」を1つの単語分割結果とする。最終的に、統計に基づく単語分割方法により取得された前記オリジナルのテキストデータである「北大学生去清華打羽毛球」の第2の単語分割結果は、「北大」、「学生」、「去」、「清華」、「打」、「羽毛球」である。
好ましくは、本願の可能な実施形態において、さらに前記第2のテキストデータに対してストップワード除去操作を行って第3のテキストデータを得る。ただし、前記ストップワード除去とは、前記オリジナルのテキストデータにおける、実際の意味がなくかつテキストの分類に影響を与えないが出現頻度が高い単語を除去することである。前記ストップワードは、一般的に、常用の代名詞、介詞などを含む。研究によると、実際の意味がないストップワードは、テキスト分類の効果を低下させることになるため、ストップワード除去はテキストデータの前処理過程における非常に重要なステップの1つである。本願の実施例では、選択されたストップワード除去方法はストップワードリストフィルタリングであり、前記ストップワードリストフィルタリングとは、既に構築されたストップワードリストとテキスト中の単語を一対一でマッチングさせ、マッチングが成功すれば、この単語はストップワードであり、この単語を削除する必要があることである。例えば、単語分割後の第2のテキストデータは以下のとおりである。商品経済の環境下で、これらの企業は市場の状況に基づき、合格的な販売モードを定めて、市場でのシェア拡大を獲得し、これにより販売の価格を安定させ、また製品の競争能力を向上させる。したがって、実行可能性の分析、マーケティングモードの研究が必要である。
この第2のテキストデータに対してさらにストップワード除去を行って得られた第3のテキストデータは以下のとおりである。商品経済環境、企業は市場状況に基づき、合格販売モードを定め、市場シェア拡大を獲得し、販売価格を安定させ、製品競争能力を向上させる。したがって、実行可能性分析、マーケティングモード研究といえる。
好ましくは、本願の可能な一実施形態において、さらに前記第3のテキストデータに対して重複除去操作を行って第4のテキストデータを得る。
具体的には、収集されたテキストデータの由来が複雑であり、その中に重複するテキストデータが多く存在する可能性があり、大量の重複するデータは分類精度に影響を与えることになるため、本願の実施例では、テキストを分類する前に、まずユークリッド距離の方法を用いてテキストに対して前記重複除去操作を行い、その式は以下のとおりである。
Figure 0007302022000005
Figure 0007302022000006
単語分割、ストップワード除去、重複除去を経た後、テキストは一連の特徴単語(キーワード)で表されるが、このようなテキスト形式のデータは分類アルゴリズムにより直接処理することができず、数値形式に変換すべきであり、したがって、これらの特徴単語に対して重み計算を行うことで、この特徴単語のテキストにおける重要性を特徴付ける必要がある。
好ましくは、本願の可能な一実施形態において、さらに前記第4のテキストデータに対して単語ベクトル形式への変換を行って前記テキストベクトルを得る。例えば、前記第4のテキストデータは「私と君」である。単語ベクトルへの変換により、文字をベクトル形式に変換してテキストベクトル[(1,2)、(0,2)、(3,1)]を得る。
好ましくは、前記単語ベクトル形式への変換とは、前記オリジナルのテキストデータに対して単語分割、ストップワード除去、重複除去を行った後に得られた前記第4のテキストデータ中のいずれか1つの単語をN次元の行列ベクトルで表すことであり、ここで、Nは合計して前記第4のテキストデータに含まれる単語の数であり、本願では、以下の式を用いて単語に対して初期的なベクトル化を行う。
Figure 0007302022000007
Figure 0007302022000008
ステップ2において、前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得る。
好ましくは、前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップは以下のステップS201~S204を含む。ステップS201において、前記テキストベクトルに対してインデックスを作成する。例えば、テキストベクトル[(1,2)、(0,2)、(3,1)]は、(1,2)、(0,2)及び(3,1)の3つの次元のデータを含む。この場合、この3つの次元に基づいて、各次元でインデックスをそれぞれ作成して、この次元における前記テキストベクトルのマークとする。
ステップS202において、前記インデックスにより、前記テキストベクトルを照会し、品詞付けを行う。例えば、インデックスによりテキストベクトルのある次元における特性を推定することができ、同じ次元の特性は同じ品詞に対応する。例えば、「犬」と「刀」の品詞はいずれも名詞であり、これらのある次元(x次元と仮定する)におけるインデックスが一致し、いずれも名詞性を指す。それに対応して、インデックスによると、ある特定のテキストベクトルの品詞を照会し、このテキストベクトルに対して品詞付けを行うことができる。例えば、前記第4のテキストデータは「打」であり、テキストベクトルに変換すると、[(0,2)、(7,2)、(10,1)]になる。まず、[(0,2)、(7,2)、(10,1)]に対してインデックスを作成し、インデックスによりこの次元に対応する品詞を照会して動詞とし、テキストベクトル[(0,2)、(7,2)、(10,1)]に対して品詞を動詞として付ける。ステップS203において、前記品詞付けに基づいてテキストの特徴語義ネットワーク図を作成し、テキストの単語頻度とテキスト頻度を統計し、続いて前記単語頻度とテキスト頻度に対して重み付け計算と特徴抽出を行って前記ラベルを得る。
具体的には、前記テキストの特徴語義ネットワーク図とはテキスト及びその語義関係を利用してテキスト特徴情報を表現する有向グラフであり、テキストベクトルに含まれるラベルをグラフのノードとし、2つのテキストベクトルの間の語義関係をグラフの有向辺とし、テキストベクトルの間の語義関係を単語頻度情報に合わせてノードの重みとし、有向辺の重みはテキストベクトル関係のテキストにおける重要度を表す。テキストの特徴語義ネットワーク図によると、本願はテキストベクトルに対して特徴抽出を行って前記ラベルを得ることができる。
ステップS204において、前記ラベルをテキストベクトルにマッチングさせてラベル付きのテキストベクトルを得て、ただし、前記テキストベクトルはラベルマッチング処理を経た後に得たラベルが空であれば、ラベルなしのテキストベクトルとして決定される。
本願の一実施形態では、前記ラベルマッチングとは、前記テキストベクトルが上記ステップS201、202、203を経た後に得たラベルとオリジナルのテキストベクトルが互いにマッチングすることである。例えば、テキストベクトル[(10,2)、(7,8)、(10,4)]は上記ステップS201、202、203を経た後に得たラベルがθ(ラベルの特徴はユーザのニーズに応じて選択して定義することができ、ここでアルファベットを指示例とする)であると、θをテキストベクトル[(10,2)、(7,8)、(10,4)]にマッチングさせる。同様に、テキストベクトル[(0,0)、(0,0)、(1,4)]は上記ステップS201、202、203を経た後に得たラベルが空である場合、[(0,0)、(0,0)、(1,4)]をラベルなしのテキストベクトルとして決定することが分かる。
さらに、前記ラベルをテキストベクトルにマッチングさせてラベル付きのテキストベクトルを得て、ただし、前記テキストベクトルは上記処理を経た後に得たラベルが空であれば、ラベルなしのテキストベクトルとして決定される。
ステップ3において、前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得する。
本願の実施例では、前記ラベル付きのテキストベクトルをBERTモデルに入力して単語ベクトル特徴を取得するステップは以下のステップS301~S302を含む。
ステップS301において、前記BERTモデルを作成する。
本願におけるBERTモデルとは、Bidirectional Encoder Representations from Transformers(トランスフォーマーを活用した双方向のエンコード表現)であり、双方向Transformer(トランスフォーマー)で構成される特徴抽出モデルである。具体的には、例えば文のx=x1、x2…、xnがあり、ここで、x1、x2などは文中の具体的な文字である。前記BERTモデルは文中の各文字に対してToken Embedding、Segment Embedding、Position Embeddingの3つの入力層の入力表現を用いて加算して入力特徴を得て、Masked Language ModelとNext Sentence Predictionを最適化目標として用い、文字の3種類の入力表現を最適化し、ただし、Masked Language ModelとNext Sentence PredictionはBERTモデルにおける2種類の典型的なアルゴリズムタイプである。
ステップS302において、ラベル付きのテキストベクトルをBERTモデルに入力し、前記BERTモデルを訓練して文字ベクトル特徴を取得するステップであって、
位置エンコードを用いてラベル付きのテキストベクトルに位置情報を付加し、初期的な単語ベクトルで前記位置情報が付加されたラベル付きのテキストベクトルを表すステップと、
ラベル付きのテキストベクトルの品詞を取得し、前記品詞を品詞ベクトルに変換するステップと、
前記初期的な単語ベクトルと前記品詞ベクトルを加算し、前記ラベル付きのテキストベクトルの単語ベクトルを得るステップと、
前記単語ベクトルで表されたラベル付きのテキストベクトルをTransformerモデルに入力してデータ処理を行い、前記ラベル付きのテキストベクトルの単語行列を得るステップと、
前記単語行列を用いて、前記ラベル付きのテキストベクトルにおける2つの文が前後文であるか否か、2つの文中の隠し単語及び前記隠し単語の品詞特徴を予測するステップと、を含む。前記BERTモデルを訓練することにより、前記BERTモデルに入力されたテキストベクトルに1つの対応する品詞特徴を予測させることができ、品詞特徴に対して正規化処理を行って前記文字ベクトル特徴を得る。
ステップ4において、前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る。
好ましくは、本願は以下のステップを採用して前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る。
文字ベクトル特徴はラベル付きのテキストベクトルをBERTモデルに入力し、BERTモデルを訓練して得られるものである。そのため、文字ベクトル特徴はラベルに必要な特徴を含み、前記文字ベクトルの特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練することで、文字ベクトル特徴の特徴を抽象化し、ラベルなしのテキストベクトルに適切な特徴をマッチングさせ、さらに仮想ラベルをマッチングさせることができる。例えば、前のステップにおいて、ラベルなしのテキストベクトルは[(0,2)、(0,0)、(0,4)]である。それを前記畳み込みニューラルネットワークモデルに入力して訓練し、ラベル付きのテキストベクトル[(2,2)、(2,2)、(0,4)]はBERTモデルの訓練を経て得た文字ベクトル特徴がAである。前記畳み込みニューラルネットワークモデルにより、ラベルなしのテキストベクトル[(0,2)、(0,0)、(0,4)]と文字ベクトル特徴Aが関連性を有することが認識される。したがって、文字ベクトル特徴Aに基づいて、ラベル付きのテキストベクトル[(2,2)、(2,2)、(0,4)]を見つけ、そのラベルをγとして確認する。ラベルγに基づいて正規化処理を行って前記仮想ラベルを得る。前記仮想ラベルを前記ラベルなしのテキストベクトルにマッチングさせ、仮想ラベル付きのテキストベクトルを得る。
本願の好ましい実施例では、前記ラベルなしのテキストを前記畳み込みニューラルネットワークモデルの畳み込み層により処理し訓練し、訓練後の畳み込みニューラルネットワークモデルを得るには、訓練方法として勾配降下アルゴリズムが採用される。
ステップ5において、ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得る。
具体的には、本願の一実施例では、前記ランダムフォレストアルゴリズムはバギングアルゴリズムの復元サンプリングアルゴリズムを用いて、前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルから複数のサンプルサブセットを抽出し、前記サンプルサブセットを用いて複数の決定木モデルを訓練し、訓練過程においてランダム特徴部分空間法を参考し、単語ベクトル集合から一部の単語ベクトル特徴を抽出して決定木の分割を行い、最後に複数の決定木を統合して統合分類器を成し、この統合分類器をランダムフォレストと呼ぶ。そのアルゴリズムフローは、サブサンプルセットの生成、決定木の構築、投票による結果の生成の3つの部分に分けられ、その具体的なフローは以下のとおりである。
ステップS501は、サブサンプルセットの生成である。
ランダムフォレストは、各ベース分類器に対して、ベース分類器の入力変数として一定のサンプルサブセットを生成する必要がある統合分類器である。評価モデルを両立させるために、サンプルセットの分割には複数の方式があり、本願の実施例では、相互認証の方式を用いてデータセットを分割し、前記相互認証は訓練しようとするテキストを文字数に応じて、k(kはゼロより大きい任意の自然数である)個のサブデータセットに分割し、訓練するたびに、そのうちの1つのサブデータセットをテストセットとし、他のサブデータセットを訓練セットとし、k回入れ替わりしてステップを行う。
ステップS502は、決定木の構築である。
ランダムフォレストでは、各ベース分類器は1つの独立した決定木である。決定木の構築過程において、最終分類の精度を向上させるように、分割ルールを利用して最適な特徴を探してサンプルを分割しようとする。ランダムフォレストの決定木と一般的な決定木は構築方式が基本的に一致し、異なる点として、ランダムフォレストの決定木は分割を行う時に、特徴セット全体を検索して特徴を選択することではなく、特徴をk(kはゼロより大きい任意の自然数である)個ランダムに選択して分割することである。本願の実施例では、各テキストベクトルを決定木の根とし、上述した畳み込みニューラルネットワークを用いて得られたテキストベクトルラベルの特徴を決定木のサブノードとし、その下のノードをそれぞれ再抽出された特徴とすることにより、各決定木を訓練する。
ただし、分割ルールとは、決定木の分割時に係る具体的なルールである。例えば、どの特徴を選択するか、分割の条件が何であるか、また、いつ分割を終了するかが分かる必要がある。決定木の生成が相対的に短絡するため、分割ルールによりそれを調整してはじめて、それをよりよく見えるようにすることができる。
ステップS503は、投票による結果の生成である。ランダムフォレストの分類結果は決定木である各ベース分類器が投票を行って得られるものである。ランダムフォレストはベース分類器を同等に扱い、各決定木は1つの分類結果を得て、すべての決定木の投票結果を集めて累積加算し、投票数が最も高い結果を最終結果とする。これにより、各決定木(ラベル分類を必要とするテキストベクトル)の各サブノード(ラベル)のスコア状況に基づいて、このラベルのスコアが本願に設定された閾値tを超えると、このラベルはこのテキストベクトルを解釈できると考えられ、それによりこのテキストベクトルのすべてのラベルを取得する。ただし、閾値tの確認方式は、この決定木のすべての分類器の投票結果の累積*0.3である。
さらに、前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルのランダムフォレストアルゴリズムによる投票結果に対して重みソートを行い、重み値が最も大きい投票結果をカテゴリキーワードとし、前記カテゴリキーワードの間の語義関係を利用し、分類結果、すなわち前記テキストベクトルのテキスト分類結果を形成する。
選択可能に、他の実施例では、テキスト分類プログラムは1つ以上のモジュールにさらに分割されてもよく、1つ以上のモジュールはメモリ11に記憶され、かつ1つ以上のプロセッサ(本実施例ではプロセッサ12)により実行されて本願を完了し、本願で言われたモジュールとは特定の機能を完成することができる一連のコンピュータプログラム命令セグメントであり、テキスト分類プログラムのテキスト分類装置における実行過程を説明するために用いられる。
例えば、図3に示すように、本願のテキスト分類装置の一実施例におけるテキスト分類プログラムのプログラムモジュールを示す図であり、この実施例では、前記テキスト分類プログラムはデータ受信及び処理モジュール10と、単語ベクトルへの変換モジュール20と、モデル訓練モジュール30と、テキスト分類出力モジュール40とに分割されてもよい。
一例として、前記データ受信及び処理モジュール10は、オリジナルのテキストデータを受信し、前記オリジナルのテキストデータに対して単語切り分け、ストップワード除去を含む前処理を行って第4のテキストデータを得るために用いられる。
前記単語ベクトルへの変換モジュール20は、前記第4のテキストデータに対して単語ベクトル化を行ってテキストベクトルを得るために用いられる。
前記モデル訓練モジュール30は、テキストベクトルを予め構築された畳み込みニューラルネットワークモデルに入力して訓練し、訓練値を得て、前記訓練値が予め設定された閾値より小さい場合、前記畳み込みニューラルネットワークモデルが訓練を終了するために用いられる。
前記テキスト分類出力モジュール40は、ユーザから入力されたテキストを受信し、前記テキストに対して上記前処理、単語得ベクトル化を行った後に前記テキスト分類に入力して出力する。
上記データ受信及び処理モジュール10、単語ベクトルへの変換モジュール20、モデル訓練モジュール30、テキスト分類出力モジュール40などのプログラムモジュールが実行されると実現させる機能又は操作ステップは上記実施例とほぼ同じであるため、ここでは詳細は再度説明しない。
また、本願は、テキスト分類プログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記テキスト分類プログラムは1つ以上のプロセッサにより実行されて以下の操作を実現するコンピュータ読み取り可能な記憶媒体をさらに提供する。
オリジナルのテキストデータを受信し、前記オリジナルのテキストデータに対して単語切り分け、ストップワード除去を含む前処理を行って第4のテキストデータを得る。
前記第4のテキストデータに対して単語ベクトル化を行ってテキストベクトルを得る。
前記テキストベクトルを予め構築されたテキスト分類モデルに入力して訓練し、訓練値を得て、前記訓練値が予め設定された閾値より小さい場合、前記畳み込みニューラルネットワークモデルが訓練を終了する。
ユーザから入力されたオリジナルのテキストデータを受信し、オリジナルのテキストデータに対して上記前処理、単語ベクトル化及び単語ベクトル符号化を行った後に前記畳み込みニューラルネットワークモデルに入力してテキスト分類結果を生成し出力する。
なお、上記本願の実施例の番号は単に説明するためのものであり、実施例の優劣を表すものではない。また、本明細書における用語の「含む」、「包含」又はその他の任意の変形は非排他的な包含をカバーすることを意図し、それにより、一連の要素を含むプロセス、装置、物品又は方法はそれらの要素を含むだけでなく、また明確に列挙されない他の要素を含み、又はこのようなプロセス、装置、物品又は方法に固有の要素を含む。それ以上の制限がない場合、文の「1つ……を含む」によって限定された要素は、この要素を含むプロセス、装置、物品又は方法に別の同じ要素がさらに存在することを排除するものではない。
以上の実施形態の説明により、当業者であれば、上記実施例による方法はソフトウェアに必要な汎用ハードウェアプラットフォームを加えるという方式によって実現でき、当然ながら、ハードウェアによっても実現できるが、前者はより好ましい実施形態である場合が多いことを明らかに了解することができる。このような理解に基づいて、本願の技術的解決手段は本質的に又は従来技術に寄与する部分はソフトウェア製品の形態で具現化することができ、このコンピュータソフトウェア製品は上記の記憶媒体(例えばROM/RAM、磁気ディスク、光ディスク)に記憶され、端末機器(携帯電話、コンピュータ、サーバ、又はネットワーク機器などであってもよい)に本願の各実施例に記載の方法を実行させるための複数の命令を含む。
以上は本願の好ましい実施例に過ぎず、それにより本願の特許範囲を限定するものではなく、本願の明細書及び図面の内容を利用して行われた同等の構造又は同等のフロー変換は、他の関連技術分野に直接的又は間接的に適用され、いずれも同様に本願の特許保護範囲内に含まれる。

Claims (10)

  1. プロセッサにより、オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得るステップと、
    プロセッサにより、前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップと、
    プロセッサにより、前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得するステップと、
    プロセッサにより、前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得るステップと、
    プロセッサにより、ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得るステップと、を含み、
    プロセッサにより、文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る前記ステップは、
    プロセッサにより、前記ラベルなしのテキストベクトルを前記畳み込みニューラルネットワークモデルの畳み込み層に入力して前記畳み込みニューラルネットワークモデルを訓練し、訓練後の畳み込みニューラルネットワークモデルを得るステップと、
    プロセッサにより、前記文字ベクトル特徴を前記訓練後の畳み込みニューラルネットワークモデルに入力し、特徴ベクトルを得るステップと、
    プロセッサにより、前記特徴ベクトルに対して正規化処理を行って前記仮想ラベルを得るステップと、
    プロセッサにより、前記仮想ラベルを前記ラベルなしのテキストベクトルにマッチングさせ、仮想ラベル付きのテキストベクトルを得るステップと、を含む
    ことを特徴とするテキスト分類方法。
  2. オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得る前記ステップは、
    前記オリジナルのテキストデータに対して単語分割操作を行って第2のテキストデータを得るステップと、
    前記第2のテキストデータに対してストップワード除去操作を行って第3のテキストデータを得るステップと、
    前記第3のテキストデータに対して重複除去操作を行って第4のテキストデータを得るステップと、
    前記第4のテキストデータに対して単語ベクトル形式への変換を行って前記テキストベクトルを得るステップと、を含むことを特徴とする請求項1に記載のテキスト分類方法。
  3. 前記BERTモデルは入力層、単語ベクトル層、分類層、符号化層を含み、また、
    前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得する前記ステップは、
    ラベル付きのテキストベクトルの品詞を取得し、前記品詞を品詞ベクトルに変換するステップと、
    前記ラベル付きのテキストベクトルに対応する前記品詞ベクトルをBERTモデルに入力してデータ処理を行い、前記ラベル付きのテキストベクトルの単語行列を得るステップと、
    前記ラベル付きのテキストベクトルの単語行列に基づいて前記ラベル付きのテキストベクトルの文字ベクトル特徴を得るステップと、を含むことを特徴とする請求項1に記載のテキスト分類方法。
  4. 仮想ラベル付きのテキストベクトルを得る前記ステップの後、前記ランダムフォレストモデルを生成するステップをさらに含み、
    前記ランダムフォレストモデルを生成する前記ステップは、
    バギングアルゴリズムの復元サンプリングアルゴリズムを用いて、前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルから複数のサンプルサブセットを抽出し、前記サンプルサブセットを用いて複数の決定木モデルを訓練するステップと、
    前記決定木モデルをベース分類器とし、予め設定された分割ルールを利用して前記サンプルサブセットを分割し、複数の前記決定木モデルで構成されるランダムフォレストモデルを生成するステップと、を含むことを特徴とする請求項に記載のテキスト分類方法。
  5. テキスト分類装置であって、メモリとプロセッサとを含み、前記メモリに前記プロセッサで実行可能なテキスト分類プログラムが記憶されており、前記テキスト分類プログラムが前記プロセッサにより実行されると、
    オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得るステップと、
    前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップと、
    前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得するステップと、
    前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得るステップと、
    ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得るステップと、を実現させ
    文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る前記ステップは、
    前記ラベルなしのテキストベクトルを前記畳み込みニューラルネットワークモデルの畳み込み層に入力して前記畳み込みニューラルネットワークモデルを訓練し、訓練後の畳み込みニューラルネットワークモデルを得るステップと、
    前記文字ベクトル特徴を前記訓練後の畳み込みニューラルネットワークモデルに入力し、特徴ベクトルを得るステップと、
    前記特徴ベクトルに対して正規化処理を行って前記仮想ラベルを得るステップと、
    前記仮想ラベルを前記ラベルなしのテキストベクトルにマッチングさせ、仮想ラベル付きのテキストベクトルを得るステップと、を含むことを特徴とするテキスト分類装置。
  6. オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得る前記ステップは、
    前記オリジナルのテキストデータに対して単語分割操作を行って第2のテキストデータを得るステップと、
    前記第2のテキストデータに対してストップワード除去操作を行って第3のテキストデータを得るステップと、
    前記第3のテキストデータに対して重複除去操作を行って第4のテキストデータを得るステップと、
    前記第4のテキストデータに対して単語ベクトル形式への変換を行って前記テキストベクトルを得るステップと、を含むことを特徴とする請求項に記載のテキスト分類装置。
  7. 前記BERTモデルは入力層、単語ベクトル層、分類層、符号化層を含み、また、
    前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得する前記ステップは、
    ラベル付きのテキストベクトルの品詞を取得し、前記品詞を品詞ベクトルに変換するステップと、
    前記ラベル付きのテキストベクトルに対応する前記品詞ベクトルをBERTモデルに入力してデータ処理を行い、前記ラベル付きのテキストベクトルの単語行列を得るステップと、
    前記ラベル付きのテキストベクトルの単語行列に基づいて前記ラベル付きのテキストベクトルの文字ベクトル特徴を得るステップと、を含むことを特徴とする請求項に記載のテキスト分類装置。
  8. 仮想ラベル付きのテキストベクトルを得る前記ステップの後、前記ランダムフォレストモデルを生成するステップをさらに含み、
    前記ランダムフォレストモデルを生成する前記ステップは、
    バギングアルゴリズムの復元サンプリングアルゴリズムを用いて、前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルから複数のサンプルサブセットを抽出し、前記サンプルサブセットを用いて複数の決定木モデルを訓練するステップと、
    前記決定木モデルをベース分類器とし、予め設定された分割ルールを利用して前記サンプルサブセットを分割し、複数の前記決定木モデルで構成されるランダムフォレストモデルを生成するステップと、を含むことを特徴とする請求項に記載のテキスト分類装置。
  9. 請求項1乃至4のいずれか一項に記載のテキスト分類方法を1つ以上のプロセッサに実行させるテキストプログラムが記憶されたコンピュータ読み取り可能な記憶媒体。
  10. 請求項1乃至4のいずれか一項に記載のテキスト分類方法を1つ以上のプロセッサに実行させるテキスト分類プログラム。
JP2021569247A 2019-10-11 2019-11-13 テキスト分類方法、装置、コンピュータ読み取り可能な記憶媒体及びテキスト分類プログラム。 Active JP7302022B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910967010.5 2019-10-11
CN201910967010.5A CN110851596B (zh) 2019-10-11 2019-10-11 文本分类方法、装置及计算机可读存储介质
PCT/CN2019/118010 WO2021068339A1 (zh) 2019-10-11 2019-11-13 文本分类方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2022534377A JP2022534377A (ja) 2022-07-29
JP7302022B2 true JP7302022B2 (ja) 2023-07-03

Family

ID=69597311

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021569247A Active JP7302022B2 (ja) 2019-10-11 2019-11-13 テキスト分類方法、装置、コンピュータ読み取り可能な記憶媒体及びテキスト分類プログラム。

Country Status (5)

Country Link
US (1) US20230195773A1 (ja)
JP (1) JP7302022B2 (ja)
CN (1) CN110851596B (ja)
SG (1) SG11202112456YA (ja)
WO (1) WO2021068339A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111506696A (zh) * 2020-03-03 2020-08-07 平安科技(深圳)有限公司 基于少量训练样本的信息抽取方法及装置
CN111159415B (zh) * 2020-04-02 2020-07-14 成都数联铭品科技有限公司 序列标注方法及系统、事件要素抽取方法及系统
CN111460162B (zh) * 2020-04-11 2021-11-02 科技日报社 一种文本分类方法、装置、终端设备及计算机可读存储介质
CN111651605B (zh) * 2020-06-04 2022-07-05 电子科技大学 基于多标签分类的肺癌前沿趋势预测方法
CN113342970B (zh) * 2020-11-24 2023-01-03 中电万维信息技术有限责任公司 一种多标签复杂文本分类方法
CN112541055A (zh) * 2020-12-17 2021-03-23 中国银联股份有限公司 一种确定文本标签的方法及装置
CN112632971B (zh) * 2020-12-18 2023-08-25 上海明略人工智能(集团)有限公司 一种用于实体匹配的词向量训练方法与系统
CN113076426B (zh) * 2021-06-07 2021-08-13 腾讯科技(深圳)有限公司 多标签文本分类及模型训练方法、装置、设备及存储介质
CN113342940B (zh) * 2021-06-24 2023-12-08 中国平安人寿保险股份有限公司 文本匹配分析方法、装置、电子设备及存储介质
CN113344125B (zh) * 2021-06-29 2024-04-05 中国平安人寿保险股份有限公司 长文本匹配识别方法、装置、电子设备及存储介质
CN113239689B (zh) * 2021-07-07 2021-10-08 北京语言大学 面向易混淆词考察的选择题干扰项自动生成方法及装置
CN113553848B (zh) * 2021-07-19 2024-02-02 北京奇艺世纪科技有限公司 长文本分类方法、系统、电子设备、计算机可读存储介质
CN113656587B (zh) * 2021-08-25 2023-08-04 北京百度网讯科技有限公司 文本分类方法、装置、电子设备及存储介质
CN113610194B (zh) * 2021-09-09 2023-08-11 重庆数字城市科技有限公司 一种数字档案自动分类方法
CN113849655B (zh) * 2021-12-02 2022-02-18 江西师范大学 一种专利文本多标签分类方法
CN114091472B (zh) * 2022-01-20 2022-06-10 北京零点远景网络科技有限公司 多标签分类模型的训练方法
CN114548100A (zh) * 2022-03-01 2022-05-27 深圳市医未医疗科技有限公司 一种基于大数据技术的临床科研辅助方法与系统
CN114817538B (zh) * 2022-04-26 2023-08-08 马上消费金融股份有限公司 文本分类模型的训练方法、文本分类方法及相关设备
CN116932767B (zh) * 2023-09-18 2023-12-12 江西农业大学 基于知识图谱的文本分类方法、系统、存储介质及计算机
CN116992035B (zh) * 2023-09-27 2023-12-08 湖南正宇软件技术开发有限公司 一种提案智能分类的方法、装置、计算机设备和介质
CN117875262B (zh) * 2024-03-12 2024-06-04 青岛天一红旗软控科技有限公司 基于管理平台的数据处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011138484A (ja) 2009-12-30 2011-07-14 Nec (China) Co Ltd マルチレベル分類モデルを構築する方法とシステム
JP2019159576A (ja) 2018-03-09 2019-09-19 富士通株式会社 学習プログラム、学習方法および学習装置
JP2019527440A (ja) 2016-12-07 2019-09-26 三菱電機株式会社 マルチ関連ラベルを生成する方法及びシステム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160253597A1 (en) * 2015-02-27 2016-09-01 Xerox Corporation Content-aware domain adaptation for cross-domain classification
CN105868773A (zh) * 2016-03-23 2016-08-17 华南理工大学 一种基于层次随机森林的多标签分类方法
US20170308790A1 (en) * 2016-04-21 2017-10-26 International Business Machines Corporation Text classification by ranking with convolutional neural networks
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法
CN107577785B (zh) * 2017-09-15 2020-02-07 南京大学 一种适用于法律识别的层次多标签分类方法
CN108073677B (zh) * 2017-11-02 2021-12-28 中国科学院信息工程研究所 一种基于人工智能的多级文本多标签分类方法及系统
CN108829810A (zh) * 2018-06-08 2018-11-16 东莞迪赛软件技术有限公司 面向健康舆情的文本分类方法
CN109471946B (zh) * 2018-11-16 2021-10-01 中国科学技术大学 一种中文文本的分类方法及系统
CN109739986A (zh) * 2018-12-28 2019-05-10 合肥工业大学 一种基于深度集成学习的投诉短文本分类方法
CN109918500A (zh) * 2019-01-17 2019-06-21 平安科技(深圳)有限公司 基于卷积神经网络的文本分类方法及相关设备
CN109800435B (zh) * 2019-01-29 2023-06-20 北京金山数字娱乐科技有限公司 一种语言模型的训练方法及装置
CN110309302B (zh) * 2019-05-17 2023-03-24 江苏大学 一种结合svm和半监督聚类的不平衡文本分类方法及系统
CN110442707B (zh) * 2019-06-21 2022-06-17 电子科技大学 一种基于seq2seq的多标签文本分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011138484A (ja) 2009-12-30 2011-07-14 Nec (China) Co Ltd マルチレベル分類モデルを構築する方法とシステム
JP2019527440A (ja) 2016-12-07 2019-09-26 三菱電機株式会社 マルチ関連ラベルを生成する方法及びシステム
JP2019159576A (ja) 2018-03-09 2019-09-19 富士通株式会社 学習プログラム、学習方法および学習装置

Also Published As

Publication number Publication date
CN110851596B (zh) 2023-06-27
CN110851596A (zh) 2020-02-28
US20230195773A1 (en) 2023-06-22
WO2021068339A1 (zh) 2021-04-15
SG11202112456YA (en) 2021-12-30
JP2022534377A (ja) 2022-07-29

Similar Documents

Publication Publication Date Title
JP7302022B2 (ja) テキスト分類方法、装置、コンピュータ読み取り可能な記憶媒体及びテキスト分類プログラム。
CN110347835B (zh) 文本聚类方法、电子装置及存储介质
CN108717406B (zh) 文本情绪分析方法、装置及存储介质
Demir et al. Improving named entity recognition for morphologically rich languages using word embeddings
JP5825676B2 (ja) ノン・ファクトイド型質問応答システム及びコンピュータプログラム
US20200104350A1 (en) Information extraction from open-ended schema-less tables
WO2021051518A1 (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
US20130036076A1 (en) Method for keyword extraction
CN111931500B (zh) 搜索信息的处理方法、装置
CN110334186B (zh) 数据查询方法、装置、计算机设备及计算机可读存储介质
CN111241828A (zh) 情感智能识别方法、装置及计算机可读存储介质
Banik et al. Gru based named entity recognition system for bangla online newspapers
US11537918B2 (en) Systems and methods for document similarity matching
KR101545050B1 (ko) 정답 유형 자동 분류 방법 및 장치, 이를 이용한 질의 응답 시스템
CN116258137A (zh) 文本纠错方法、装置、设备和存储介质
CN114970553B (zh) 基于大规模无标注语料的情报分析方法、装置及电子设备
CN114492437B (zh) 关键词识别方法、装置、电子设备及存储介质
CN113468311B (zh) 一种基于知识图谱的复杂问句问答方法、装置及存储介质
Delgado-Solano et al. Keyword Extraction From Users' Requirements Using TextRank and Frequency Analysis, and Their Classification into ISO/IEC 25000 Quality Categories
Riemer et al. A deep learning and knowledge transfer based architecture for social media user characteristic determination
CN115048523A (zh) 文本分类方法、装置、设备以及存储介质
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
JP5342574B2 (ja) トピックモデリング装置、トピックモデリング方法、及びプログラム
Testas Natural Language Processing with Pandas, Scikit-Learn, and PySpark
CN114897038B (zh) 目标词语的检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211119

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230621

R150 Certificate of patent or registration of utility model

Ref document number: 7302022

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150