JP2021114284A - 句読点予測方法および装置 - Google Patents
句読点予測方法および装置 Download PDFInfo
- Publication number
- JP2021114284A JP2021114284A JP2020215550A JP2020215550A JP2021114284A JP 2021114284 A JP2021114284 A JP 2021114284A JP 2020215550 A JP2020215550 A JP 2020215550A JP 2020215550 A JP2020215550 A JP 2020215550A JP 2021114284 A JP2021114284 A JP 2021114284A
- Authority
- JP
- Japan
- Prior art keywords
- text
- character
- punctuation
- prediction result
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
Description
本出願の他の態様では、コンピュータプログラムを提供し、前記コンピュータプログラムにおける命令が実行された場合に、本出願の実施例の句読点予測方法が実行される。
score=θ×A+(1−θ)×Bであってもよい。
本出願の実施例によれば、コンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行された場合に、上記句読点予測方法が実行される。
Claims (17)
- 句読点予測方法であって、
予測対象のテキストを取得するステップと、
前記テキストを予め設定されたシーケンスラベリングモデルに入力して、前記テキスト内の各文字に対応する第1の句読点予測結果を取得するステップであって、前記第1の句読点予測結果が、少なくとも1種の予測結果および各種の予測結果に対応する第1の得点と、前記予測結果表示文字の後に句読点が存在するか否か、および存在する句読点のタイプとを含むステップと、
前記テキスト内の各文字に対して、前記文字の各種の予測結果に対して、前記テキストおよび前記予測結果と併せて、前記予測結果に対応する入力対象のテキストを生成し、前記入力対象のテキストを予め設定された言語モデルに入力して、前記予測結果に対応する第2の得点を得るステップと、
前記文字の各種の予測結果に対応する第1の得点および第2の得点と併せて、前記文字の句読点存在状況を決定するステップと、
前記テキスト内の各文字の句読点存在状況と併せて、前記テキストに対して句読点処理を行い、前記テキストに対応する句読点テキストを得るステップと、を含む、
ことを特徴とする句読点予測方法。 - 前記テキストを予め設定されたシーケンスラベリングモデルに入力して、前記テキスト内の各文字に対応する第1の句読点予測結果を取得する前記ステップは、
前記テキストを予め設定されたシーケンスラベリングモデルに入力して、前記テキスト内の各文字に対応する少なくとも1種の予測結果および予測確率を取得するステップと、
各文字の各種の予測結果に対して、前記予測結果に対応する予測確率に対して逆数および対数演算を行って、前記予測結果に対応する第1の得点を得るステップと、を含む、
ことを特徴とする請求項1に記載の方法。 - 前記テキスト内の各文字に対して、前記文字の各種の予測結果に対して、前記テキストおよび前記予測結果と併せて、前記予測結果に対応する入力対象のテキストを生成する前記ステップは、
前記テキスト内の各文字に対して、前記文字が前記テキストの頭文字であるか否かを判断するステップと、
前記文字が前記テキストの頭文字である場合、頭文字の各種の予測結果に対して、前記テキストおよび前記予測結果と併せて、前記予測結果に対応する入力対象のテキストを生成するステップと、
前記文字が前記テキストの頭文字ではない場合、前記頭文字でない文字の各予測結果に対して、前記テキスト内の前記頭文字でない文字の前の各文字の句読点存在状況、前記テキスト、および前記予測結果と併せて、前記予測結果に対応する入力対象のテキストを生成するステップと、を含む、
ことを特徴とする請求項1に記載の方法。 - 前記頭文字でない文字の各種の予測結果に対応する入力対象のテキストは、前記テキスト内の前記頭文字でない文字の前の文字を含み、前記頭文字でない文字の前の文字の後に、対応する句読点存在状況によって表される内容、前記頭文字でない文字、および前記予測結果によって表される内容が挿入され、
前記予測結果表示文字の後に句読点が存在しない場合、前記内容は空であり、前記予測結果表示文字の後に句読点が存在する場合、前記内容は存在する句読点のタイプである、
ことを特徴とする請求項3に記載の方法。 - 前記頭文字でない文字の各種の予測結果に対応する入力対象のテキストは、前記テキスト内の前記頭文字でない文字の前の文字を含み、各前記頭文字でない文字の前の文字の後に、対応する句読点存在状況によって表される内容、前記頭文字でない文字、前記予測結果によって表される内容、および前記テキストないの前記頭文字でない文字の後の予め設定された数の文字が挿入される、
ことを特徴とする請求項3に記載の方法。 - 前記文字の各種の予測結果に対応する第1の得点および第2の得点と併せて、前記文字の句読点存在状況を決定する前記ステップは、
前記文字の各種の予測結果に対して、前記予測結果に対応する第1の得点および第2の得点を取得するステップと、
前記第1の得点および前記第2の得点に対して重み付き加算を行って、前記予測結果に対応する総得点を得るステップと、
対応する総得点の最小の予測結果に基づいて、前記文字の句読点存在状況を決定するステップと、を含む、
ことを特徴とする請求項1に記載の方法。 - 前記テキスト内の各文字の句読点存在状況と併せて、前記テキストに対して句読点処理を行い、前記テキストに対応する句読点テキストを得る前記ステップは、
前記テキスト内の各文字に対して、前記文字の句読点存在状況に基づいて、前記文字の後に句読点が存在するか否かを決定するステップと、
前記文字の後に句読点が存在する場合、存在する句読点のタイプに基づいて、前記テキスト内の前記文字の後に句読点を追加するステップと、
前記テキスト内の各文字が処理された後、前記テキストに対応する句読点テキストを得るステップと、を含む、
ことを特徴とする請求項1に記載の方法。 - 句読点予測装置であって、
予測対象のテキストを取得するための取得モジュールと、
前記テキストを予め設定されたシーケンスラベリングモデルに入力して、前記テキスト内の各文字に対応する第1の句読点予測結果を取得するための入力モジュールであって、前記第1の句読点予測結果が、少なくとも1種の予測結果および各種の予測結果に対応する第1の得点と、前記予測結果表示文字の後に句読点が存在するか否か、および存在する句読点のタイプとを含む入力モジュールと、
前記テキスト内の各文字に対して、前記文字の各種の予測結果に対して、前記テキストおよび前記予測結果と併せて、前記予測結果に対応する入力対象のテキストを生成し、前記入力対象のテキストを予め設定された言語モデルに入力して、前記予測結果に対応する第2の得点を得るための第1の決定モジュールと、
前記文字の各種の予測結果に対応する第1の得点および第2の得点と併せて、前記文字の句読点存在状況を決定するための第2の決定モジュールと、
前記テキスト内の各文字の句読点存在状況と併せて、前記テキストに対して句読点処理を行い、前記テキストに対応する句読点テキストを得るための句読点処理モジュールと、を含む、
ことを特徴とする句読点予測装置。 - 前記入力モジュールは具体的に、
前記テキストを予め設定されたシーケンスラベリングモデルに入力して、前記テキスト内の各文字に対応する少なくとも1種の予測結果および予測確率を取得し、
各文字の各種の予測結果に対して、前記予測結果に対応する予測確率に対して逆数および対数演算を行って、前記予測結果に対応する第1の得点を得ることに用いられる、
ことを特徴とする請求項8に記載の装置。 - 前記第1の決定モジュールは具体的に、
前記テキスト内の各文字に対して、前記文字が前記テキストの頭文字であるか否かを判断し、
前記文字が前記テキストの頭文字である場合、頭文字の各種の予測結果に対して、前記テキストおよび前記予測結果と併せて、前記予測結果に対応する入力対象のテキストを生成し、
前記文字が前記テキストの頭文字ではない場合、前記頭文字でない文字の各予測結果に対して、前記テキスト内の前記頭文字でない文字の前の各文字の句読点存在状況、前記テキスト、および前記予測結果と併せて、前記予測結果に対応する入力対象のテキストを生成することに用いられる、
ことを特徴とする請求項8に記載の装置。 - 前記頭文字でない文字の各種の予測結果に対応する入力対象のテキストは、前記テキスト内の前記頭文字でない文字の前の文字を含み、前記頭文字でない文字の前の文字の後に、対応する句読点存在状況によって表される内容、前記頭文字でない文字、および前記予測結果によって表される内容が挿入され、
前記予測結果表示文字の後に句読点が存在しない場合、前記内容は空であり、前記予測結果表示文字の後に句読点が存在する場合、前記内容は存在する句読点のタイプである、
ことを特徴とする請求項10に記載の装置。 - 前記頭文字でない文字の各種の予測結果に対応する入力対象のテキストは、前記テキスト内の前記頭文字でない文字の前の文字を含み、各前記頭文字でない文字の前の文字の後に、対応する句読点存在状況によって表される内容、前記頭文字でない文字、前記予測結果によって表される内容、および前記テキストないの前記頭文字でない文字の後の予め設定された数の文字が挿入される、
ことを特徴とする請求項10に記載の装置。 - 前記第2の決定モジュールは具体的に、
前記文字の各種の予測結果に対して、前記予測結果に対応する第1の得点および第2の得点を取得し、
前記第1の得点および前記第2の得点に対して重み付き加算を行って、前記予測結果に対応する総得点を得て、
対応する総得点の最小の予測結果に基づいて、前記文字の句読点存在状況を決定することに用いられる、
ことを特徴とする請求項8に記載の装置。 - 前記句読点処理モジュールは具体的に、
前記テキスト内の各文字に対して、前記文字の句読点存在状況に基づいて、前記文字の後に句読点が存在するか否かを決定し、
前記文字の後に句読点が存在する場合、存在する句読点のタイプに基づいて、前記テキスト内の前記文字の後に句読点を追加し、
前記テキスト内の各文字が処理された後、前記テキストに対応する句読点テキストを得ることに用いられる、
ことを特徴とする請求項8に記載の装置。 - 電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが請求項1〜7のいずれかに記載の方法を実行するように、前記少なくとも1つのプロセッサによって実行される、
ことを特徴とする電子機器。 - コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項1〜7のいずれかに記載の方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータプログラムであって、
前記コンピュータプログラムにおける命令が実行された場合に、請求項1〜7のいずれかに記載の方法が実行される、
ことを特徴とするコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010046714.1 | 2020-01-16 | ||
CN202010046714.1A CN111241810B (zh) | 2020-01-16 | 2020-01-16 | 标点预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021114284A true JP2021114284A (ja) | 2021-08-05 |
JP7133002B2 JP7133002B2 (ja) | 2022-09-07 |
Family
ID=70866149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020215550A Active JP7133002B2 (ja) | 2020-01-16 | 2020-12-24 | 句読点予測方法および装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11216615B2 (ja) |
EP (1) | EP3852013A1 (ja) |
JP (1) | JP7133002B2 (ja) |
KR (1) | KR102630243B1 (ja) |
CN (1) | CN111241810B (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414731B (zh) * | 2020-02-28 | 2023-08-11 | 北京小米松果电子有限公司 | 文本标注方法和装置 |
CN116018639A (zh) * | 2020-10-27 | 2023-04-25 | 谷歌有限责任公司 | 用于流式文本的文本到语音合成的方法和系统 |
CN112685996B (zh) * | 2020-12-23 | 2024-03-22 | 北京有竹居网络技术有限公司 | 文本标点预测方法、装置、可读介质和电子设备 |
CN113378541B (zh) * | 2021-05-21 | 2023-07-07 | 标贝(北京)科技有限公司 | 文本标点预测方法、装置、系统及存储介质 |
CN114528850B (zh) * | 2022-02-16 | 2023-08-04 | 马上消费金融股份有限公司 | 标点预测模型的训练方法、标点添加方法及装置 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3232289B2 (ja) * | 1999-08-30 | 2001-11-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 記号挿入装置およびその方法 |
CA2680304C (en) * | 2008-09-25 | 2017-08-22 | Multimodal Technologies, Inc. | Decoding-time prediction of non-verbalized tokens |
SG188531A1 (en) * | 2010-09-24 | 2013-04-30 | Univ Singapore | Methods and systems for automated text correction |
JP5611270B2 (ja) * | 2012-05-08 | 2014-10-22 | ヤフー株式会社 | 単語分割装置、及び単語分割方法 |
CN104143331B (zh) * | 2013-05-24 | 2015-12-09 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法和系统 |
CN106803422B (zh) * | 2015-11-26 | 2020-05-12 | 中国科学院声学研究所 | 一种基于长短时记忆网络的语言模型重估方法 |
WO2017213709A1 (en) * | 2016-06-08 | 2017-12-14 | Google Llc | Scalable dynamic class language modeling |
CN108628813B (zh) * | 2017-03-17 | 2022-09-23 | 北京搜狗科技发展有限公司 | 处理方法和装置、用于处理的装置 |
US10867595B2 (en) * | 2017-05-19 | 2020-12-15 | Baidu Usa Llc | Cold fusing sequence-to-sequence models with language models |
CN107767870B (zh) * | 2017-09-29 | 2021-03-23 | 百度在线网络技术(北京)有限公司 | 标点符号的添加方法、装置和计算机设备 |
CN107680579B (zh) | 2017-09-29 | 2020-08-14 | 百度在线网络技术(北京)有限公司 | 文本正则化模型训练方法和装置、文本正则化方法和装置 |
CN108845682B (zh) | 2018-06-28 | 2022-02-25 | 北京金山安全软件有限公司 | 一种输入预测方法及装置 |
CN109255115B (zh) * | 2018-10-19 | 2023-04-07 | 科大讯飞股份有限公司 | 一种文本标点调整方法及装置 |
CN109558576B (zh) * | 2018-11-05 | 2023-05-23 | 中山大学 | 一种基于自注意力机制的标点符号预测方法 |
CN109858038B (zh) * | 2019-03-01 | 2023-04-18 | 科大讯飞股份有限公司 | 一种文本标点确定方法及装置 |
CN110413987B (zh) * | 2019-06-14 | 2023-05-30 | 平安科技(深圳)有限公司 | 基于多个预测模型的标点符号预测方法及相关设备 |
CN110298042A (zh) * | 2019-06-26 | 2019-10-01 | 四川长虹电器股份有限公司 | 基于Bilstm-crf与知识图谱影视实体识别方法 |
CN110516253B (zh) * | 2019-08-30 | 2023-08-25 | 思必驰科技股份有限公司 | 中文口语语义理解方法及系统 |
CN110688822A (zh) * | 2019-09-27 | 2020-01-14 | 上海智臻智能网络科技股份有限公司 | 标点符号的添加方法及设备、介质 |
-
2020
- 2020-01-16 CN CN202010046714.1A patent/CN111241810B/zh active Active
- 2020-09-29 US US17/036,561 patent/US11216615B2/en active Active
- 2020-12-18 EP EP20215758.2A patent/EP3852013A1/en not_active Withdrawn
- 2020-12-24 JP JP2020215550A patent/JP7133002B2/ja active Active
-
2021
- 2021-01-14 KR KR1020210005164A patent/KR102630243B1/ko active IP Right Grant
Non-Patent Citations (1)
Title |
---|
OTTOKAR TILK 他1名, LSTM FOR PUNCTUATION RESTORATION IN SPEECH TRANSCRIPTS, JPN6022007616, September 2015 (2015-09-01), ISSN: 0004716653 * |
Also Published As
Publication number | Publication date |
---|---|
CN111241810B (zh) | 2023-08-01 |
US11216615B2 (en) | 2022-01-04 |
US20210224480A1 (en) | 2021-07-22 |
EP3852013A1 (en) | 2021-07-21 |
JP7133002B2 (ja) | 2022-09-07 |
KR102630243B1 (ko) | 2024-01-25 |
KR20210092692A (ko) | 2021-07-26 |
CN111241810A (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102534721B1 (ko) | 모델을 트레이닝하는 방법, 장치, 기기 및 저장 매체 | |
JP7317791B2 (ja) | エンティティ・リンキング方法、装置、機器、及び記憶媒体 | |
US11403468B2 (en) | Method and apparatus for generating vector representation of text, and related computer device | |
JP2021114284A (ja) | 句読点予測方法および装置 | |
US9043300B2 (en) | Input method editor integration | |
CN111061868B (zh) | 读法预测模型获取及读法预测方法、装置及存储介质 | |
KR102472708B1 (ko) | 감정 분석 모델을 사전 트레이닝하는 방법, 장치 및 전자 기기 | |
JP7044839B2 (ja) | エンドツーエンドモデルのトレーニング方法および装置 | |
US20210200813A1 (en) | Human-machine interaction method, electronic device, and storage medium | |
JP2021111420A (ja) | テキストエンティティの語義記述処理方法、装置及び機器 | |
JP2021197133A (ja) | 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
KR20210148918A (ko) | 언어 모델에 기반한 단어 벡터 획득 방법, 장치, 기기 및 기록매체 | |
KR20210157342A (ko) | 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체 | |
EP3251114B1 (en) | Transcription correction using multi-token structures | |
CN111709252B (zh) | 基于预训练的语义模型的模型改进方法及装置 | |
JP2022505015A (ja) | 知識グラフのベクトル表現生成方法、装置及び電子機器 | |
KR20220029384A (ko) | 엔티티 링킹 방법, 장치, 전자 기기 및 기록 매체 | |
EP3855341A1 (en) | Language generation method and apparatus, electronic device and storage medium | |
CN112270169B (zh) | 对白角色预测方法、装置、电子设备及存储介质 | |
CN113901841A (zh) | 翻译方法、装置以及存储介质 | |
CN115688796B (zh) | 用于自然语言处理领域中预训练模型的训练方法及其装置 | |
CN116362240A (zh) | 文本处理的方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201224 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220519 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220823 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220826 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7133002 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |