JP2020064630A - 文章記号挿入装置及びその方法 - Google Patents
文章記号挿入装置及びその方法 Download PDFInfo
- Publication number
- JP2020064630A JP2020064630A JP2019187743A JP2019187743A JP2020064630A JP 2020064630 A JP2020064630 A JP 2020064630A JP 2019187743 A JP2019187743 A JP 2019187743A JP 2019187743 A JP2019187743 A JP 2019187743A JP 2020064630 A JP2020064630 A JP 2020064630A
- Authority
- JP
- Japan
- Prior art keywords
- morpheme
- data
- symbol
- learning
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
音声認識装置 200
句点挿入装置 300
前処理部 310
形態素処理部 320
教師データ生成部 330
学習部 340
推定部 350
句点挿入部 360
Claims (6)
- 学習対象の文字列テキストデータ中、処理対象の形態素と当該処理対象形態素の次の形態素からなる着目形態素組の形態素及び文法情報を入力データとし、当該入力データと、
着目形態素組の形態素間に文章記号が挿入されているかどうかを示す出力データとを教師データとして学習して学習モデルを形成する学習部と、
文字列テキストデータを形態素解析し、分割された形態素と当該形態素の文法情報とを出力する形態素処理部と、
推定対象の文字列テキストデータが前記形態素処理部で形態素解析されて得られた形態素と当該形態素の文法情報のうち、処理対象の形態素と当該処理対象形態素の次の形態素からなる着目形態素組の形態素及び文法情報を入力データとして前記学習モデルに入力し、出力された出力データに基づき着目形態素組の形態素間に文章記号を挿入すべきか否かを判断する推定部と、
前記推定部の推定結果に基づき推定対象の文字列テキストデータに文章記号を挿入する文章記号挿入部とからなり、
前記文字列テキストデータは発話主体別の識別情報が付与されており、
前記学習部は発話主体別の識別情報を用いて発話主体別に学習して学習モデルを形成し、
前記推定部は発話主体別の識別情報により発話主体別の学習モデルを用いて文章記号を挿入すべきか否かを判断し、前記推定部の出力データは、文章記号を挿入すべき程度を示す値、及び/又は、文章記号を挿入すべきではない程度を示す値であり、
前記文章記号挿入部は、出力データを所定閾値と比較した結果に基づき文章記号を挿入
する文章記号挿入装置。 - 推定対象の文字列テキストデータから所定の文章記号を取り除く前処理部を含む
前記請求項1に記載の文章記号挿入装置。 - 前記前処理部が取り除く文章記号は、前記推定部が挿入すべきか否かを判断する文章記号である
前記請求項2に記載の文章記号挿入装置。 - 前記文章記号挿入部により前記所定閾値を標準の所定閾値で文章記号を挿入した文字列テキストデータと、前記文章記号挿入部により前記所定閾値を変更した所定閾値で文章記号を挿入した文字列テキストデータとを比較し、追加された文章記号及び削除された文章記号を顕示する
前記請求項1ないし3のいずれかに記載の文章記号挿入装置。 - ワイルドカード設定情報又は学習データの入力データのワイルドカード指定を参照し、
推定対象の入力データをワイルドカード記号に置換するワイルドカード処理部を含み、
当該ワイルドカード処理部によりワイルドカードに置換された推定対象の入力データを用いて推定部で推定する
前記請求項1ないし4のいずれに記載の文章記号挿入装置。 - 学習対象の文字列テキストデータ中、処理対象の形態素と当該処理対象形態素の次の形態素からなる着目形態素組の形態素及び文法情報を入力データとし、当該入力データと、着目形態素組の形態素間に文章記号が挿入されているかどうかを示す出力データとを教師データとして学習して学習モデルを形成する学習ステップと、
文字列テキストデータを形態素解析し、分割された形態素と当該形態素の文法情報とを出力する形態素処理ステップと、
推定対象の文字列テキストデータが前記形態素処理ステップで形態素解析されて得られた形態素と当該形態素の文法情報のうち、処理対象の形態素と当該処理対象形態素の次の形態素からなる着目形態素組の形態素及び文法情報を入力データとして前記学習モデルに入力し、出力された出力データに基づき着目形態素組の形態素間に文章記号を挿入すべきか否かを判断する推定ステップと、
前記推定ステップの推定結果に基づき推定対象の文字列テキストデータに文章記号を挿入する文章記号挿入ステップとからなり、
前記文字列テキストデータは発話主体別の識別情報が付与されており、
前記学習ステップで、発話主体別の識別情報を用いて発話主体別に学習して学習モデルを形成し、
前記推定ステップで、発話主体別の識別情報により発話主体別の学習モデルを用いて文章記号を挿入すべきか否かを判断し、
前記推定ステップの出力データは、文章記号を挿入すべき程度を示す値、及び/又は、文章記号を挿入すべきではない程度を示す値であり、
前記文章記号挿入ステップは、出力データを所定閾値と比較した結果に基づき文章記号を挿入する文章記号挿入方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019187743A JP7229144B2 (ja) | 2019-10-11 | 2019-10-11 | 文章記号挿入装置及びその方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019187743A JP7229144B2 (ja) | 2019-10-11 | 2019-10-11 | 文章記号挿入装置及びその方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018194615A Division JP6605105B1 (ja) | 2018-10-15 | 2018-10-15 | 文章記号挿入装置及びその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020064630A true JP2020064630A (ja) | 2020-04-23 |
JP7229144B2 JP7229144B2 (ja) | 2023-02-27 |
Family
ID=70388342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019187743A Active JP7229144B2 (ja) | 2019-10-11 | 2019-10-11 | 文章記号挿入装置及びその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7229144B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666749A (zh) * | 2020-06-03 | 2020-09-15 | 杭州凡闻科技有限公司 | 热点文章识别方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000029496A (ja) * | 1998-05-13 | 2000-01-28 | Internatl Business Mach Corp <Ibm> | 連続音声認識において句読点を自動的に生成する装置および方法 |
JP2001083987A (ja) * | 1999-08-30 | 2001-03-30 | Internatl Business Mach Corp <Ibm> | 記号挿入装置およびその方法 |
JP2003263190A (ja) * | 2002-03-07 | 2003-09-19 | Fujitsu Ltd | 音声自動質問応答装置 |
JP2005140988A (ja) * | 2003-11-06 | 2005-06-02 | Canon Inc | 音声認識装置及び方法 |
JP2005174336A (ja) * | 2003-12-11 | 2005-06-30 | Microsoft Corp | 情報抽出のための一般化文字列パターンの学習および使用 |
WO2009101837A1 (ja) * | 2008-02-13 | 2009-08-20 | Nec Corporation | 記号挿入装置および記号挿入方法 |
JP2010092169A (ja) * | 2008-10-06 | 2010-04-22 | Fuji Xerox Co Ltd | 情報処理装置及びプログラム |
WO2014132402A1 (ja) * | 2013-02-28 | 2014-09-04 | 株式会社東芝 | データ処理装置および物語モデル構築方法 |
JP2015219480A (ja) * | 2014-05-21 | 2015-12-07 | 日本電信電話株式会社 | 対話状況特徴計算装置、文末記号推定装置、これらの方法及びプログラム |
-
2019
- 2019-10-11 JP JP2019187743A patent/JP7229144B2/ja active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000029496A (ja) * | 1998-05-13 | 2000-01-28 | Internatl Business Mach Corp <Ibm> | 連続音声認識において句読点を自動的に生成する装置および方法 |
JP2001083987A (ja) * | 1999-08-30 | 2001-03-30 | Internatl Business Mach Corp <Ibm> | 記号挿入装置およびその方法 |
JP2003263190A (ja) * | 2002-03-07 | 2003-09-19 | Fujitsu Ltd | 音声自動質問応答装置 |
JP2005140988A (ja) * | 2003-11-06 | 2005-06-02 | Canon Inc | 音声認識装置及び方法 |
JP2005174336A (ja) * | 2003-12-11 | 2005-06-30 | Microsoft Corp | 情報抽出のための一般化文字列パターンの学習および使用 |
WO2009101837A1 (ja) * | 2008-02-13 | 2009-08-20 | Nec Corporation | 記号挿入装置および記号挿入方法 |
JP2010092169A (ja) * | 2008-10-06 | 2010-04-22 | Fuji Xerox Co Ltd | 情報処理装置及びプログラム |
WO2014132402A1 (ja) * | 2013-02-28 | 2014-09-04 | 株式会社東芝 | データ処理装置および物語モデル構築方法 |
JP2015219480A (ja) * | 2014-05-21 | 2015-12-07 | 日本電信電話株式会社 | 対話状況特徴計算装置、文末記号推定装置、これらの方法及びプログラム |
Non-Patent Citations (2)
Title |
---|
中川 聖一 外2名: "話者の同定を組み込んだニュース音声の認識", 電子情報通信学会技術研究報告, vol. 第99巻 第121号, JPN6022042496, 18 June 1999 (1999-06-18), JP, pages 49 - 56, ISSN: 0004892624 * |
廣瀬良文 外4名: "テキスト音声合成のための意味情報の連鎖パタンによる複合語分割", 日本音響学会研究発表会議講演論文集 秋I, JPN6022042498, 26 September 2002 (2002-09-26), pages 399 - 400, ISSN: 0004892625 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666749A (zh) * | 2020-06-03 | 2020-09-15 | 杭州凡闻科技有限公司 | 热点文章识别方法 |
CN111666749B (zh) * | 2020-06-03 | 2023-09-19 | 杭州凡闻科技有限公司 | 热点文章识别方法 |
Also Published As
Publication number | Publication date |
---|---|
JP7229144B2 (ja) | 2023-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11037553B2 (en) | Learning-type interactive device | |
US20200183983A1 (en) | Dialogue System and Computer Program Therefor | |
JP4762103B2 (ja) | 韻律統計モデル訓練方法及び装置、並びに韻律解析方法及び装置 | |
KR100825690B1 (ko) | 음성 인식 시스템에서의 인식 오류 수정 방법 | |
CN105261246B (zh) | 一种基于大数据挖掘技术的英语口语纠错系统 | |
JP6440967B2 (ja) | 文末記号推定装置、この方法及びプログラム | |
CN111477216A (zh) | 一种用于对话机器人的音意理解模型的训练方法及系统 | |
Chen et al. | Characterizing phonetic transformations and acoustic differences across English dialects | |
JP6605105B1 (ja) | 文章記号挿入装置及びその方法 | |
Kopparapu | Non-linguistic analysis of call center conversations | |
Dorn | Dialect-specific models for automatic speech recognition of African American Vernacular English | |
Glasser | Automatic speech recognition services: Deaf and hard-of-hearing usability | |
CN111883137A (zh) | 基于语音识别的文本处理方法及装置 | |
EP3509062B1 (en) | Audio recognition device, audio recognition method, and program | |
CN107123419A (zh) | Sphinx语速识别中背景降噪的优化方法 | |
Catania et al. | Automatic Speech Recognition: Do Emotions Matter? | |
JP2020064630A (ja) | 文章記号挿入装置及びその方法 | |
CN111898342A (zh) | 一种基于编辑距离的中文发音校验方法 | |
Louw et al. | Speaker specific phrase break modeling with conditional random fields for text-to-speech | |
Ziedan et al. | A unified approach for arabic language dialect detection | |
JPH1097285A (ja) | 音声認識装置 | |
JP4220151B2 (ja) | 音声対話装置 | |
CN111429886B (zh) | 一种语音识别方法及系统 | |
Shukla | Keywords Extraction and Sentiment Analysis using Automatic Speech Recognition | |
Putri et al. | Rule-based pronunciation models to handle oov words for indonesian automatic speech recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20200511 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210813 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221011 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230214 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7229144 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |