JP7475844B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP7475844B2 JP7475844B2 JP2019214360A JP2019214360A JP7475844B2 JP 7475844 B2 JP7475844 B2 JP 7475844B2 JP 2019214360 A JP2019214360 A JP 2019214360A JP 2019214360 A JP2019214360 A JP 2019214360A JP 7475844 B2 JP7475844 B2 JP 7475844B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- keyword
- unit
- similarity
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 44
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000000605 extraction Methods 0.000 claims description 62
- 238000001514 detection method Methods 0.000 claims description 29
- 230000014509 gene expression Effects 0.000 claims description 19
- 239000000284 extract Substances 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims 2
- 230000004044 response Effects 0.000 description 24
- 238000012545 processing Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 18
- 238000000034 method Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010977 unit operation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
はじめに、音声対話を利用して、音声認識された文章から項目値を検出し、フォームデータに含まれるスロット(項目欄)に項目値を入力する場合の例について説明する。
訪問先(会社名型)
訪問日(日付型)
次回訪問日(日付型)
SYS:「商談レポートの入力を開始します。訪問先を入力してください。」
USR:「ABC商事です。」
SYS:「訪問日を入力してください。」
USR:「8月21日です。」
SYS:「次回訪問日を入力してください。」
USR:「9月11日です。」
のように、システムのガイダンスに従って、1項目ずつ入力していくインタフェースが分かりやすい。この方法だと、システムがスロット(訪問先、訪問日又は次回訪問日)を指定しているので、ユーザ発話から項目名を特定する必要がない。
SYS:「商談レポートを入力してください。」
USR:「訪問した会社はABC商事で、訪問した日は8月21日、次の訪問日は9月11日です。」
のように、複数のスロットをまとめて話して入力できる方が便利である。
図1は第1実施形態の情報処理装置10の機能構成の例を示す図である。第1実施形態の情報処理装置10は、分割部101、抽出部102及び検出部103を備える。
図2は第1実施形態の抽出部102の動作例を示すフローチャートである。はじめに、抽出部102が、分割部101から、第1の単語に分割された第1のキーワード、及び、第2の単語に分割された文章を受け付ける(ステップS201)。
例えば、抽出部102が、つぎの文章及び第1のキーワードを、分割部101から受け付けたとする。なお/は、文章の分割例を示す。
文章:「訪問/し/た/日/は/8/月/21/日/です/。」
第1のキーワード:「訪問/日」
「訪問」
「訪問し」
「訪問した」
「訪問した日」
「訪問した日は」
「訪問した日は8」
「訪問した日は8月」
「日」
「た日」
「した日」
「訪問した日」
図3は第1実施形態の検出部103の動作例を示すフローチャートである。はじめに、検出部103が、抽出部102から、第1のキーワード及び単語列を受け付ける(ステップS301)。
Sim=α×Sim_chr + β×Sim_com ・・・(1)
次に第2実施形態について説明する。第2実施形態の説明では、第1実施形態と同様の説明については省略し、第1実施形態と異なる箇所について説明する。
図5は第2実施形態の情報処理装置10-2の機能構成の例を示す図である。第2実施形態の情報処理装置10-2は、分割部101、抽出部102-2、検出部103、記憶部104及び検索部105を備える。
図7は第2実施形態の抽出部102-2の動作例を示すフローチャートである。はじめに、抽出部102が、分割部101から、第1の単語に分割された第1のキーワード、及び、第2の単語に分割された文章を受け付け、検索部105から、類語辞書検索結果を受け付ける(ステップS401)。
例えば、抽出部102が、つぎの文章及び第1のキーワードを、分割部101から受け付けたとする。なお/は、文章の分割例を示す。
文章:「訪れ/た/日にち/は/8/月/21/日/です/。」
第1のキーワード:「訪問/日」
文章は、第1のキーワードの先頭単語「訪問」も末尾単語「日」も含まない。しかし、それぞれの類語である「訪れる」及び「日にち」を含むので、抽出部102-2の処理により、「訪れた日にち」という単語列が検出される。この抽出結果を利用すると、検出部103の処理により、「訪れた日にち」が第2のキーワードとして検出される。
次に第3実施形態について説明する。第3実施形態の説明では、第1実施形態と同様の説明については省略し、第1実施形態と異なる箇所について説明する。
図8は第3実施形態の情報処理装置10-3の機能構成の例を示す図である。第3実施形態の情報処理装置10-3は、分割部101、抽出部102、検出部103、項目名データベース106、推定部107、通知部108及び登録部109を備える。
図9Aは第3実施形態の項目名データベースの例1を示す図である。図9Bは第3実施形態の項目名データベースの例2を示す図である。項目名データベース106は、項目名、データ型及び言い換え表現を含む。項目名は、フォームデータに含まれる項目名を示す。データ型は、項目名により識別されるスロット(項目欄)に入力されるデータのデータ型を示す。言い換え表現は、項目名の言い換え表現を示す。項目名とデータ型は必須であり、言い換え表現は空欄(図9A)でもよい。
図10は第3実施形態の推定部107の動作例を示すフローチャートである。はじめに、推定部107が、文章を受け付け、項目名データベース106から項目名と言い換え表現とを読み出す(ステップS501)。推定部107は、例えばユーザの発話から音声認識された文章を受け付ける。
図11は第3実施形態の応答文テンプレートの例を示す図である。応答文テンプレートは、テンプレート名及び応答文を含む。応答文の$と$で囲まれた文字列は、推定部107によりセットされる変数を示す。例えば、SECONDKEYに「訪問した日」、SLOTNAMEに「訪問日」がセットされていると、テンプレート名「confirm」の応答文は、「訪問した日とは訪問日のことでしょうか?」となる。
図12は第3実施形態の通知部108の動作例を示すフローチャートである。はじめに、通知部108が、上述のステップS514の推定部107の処理で指定されたテンプレート名で応答文を生成し、当該応答文をユーザに提示する(ステップS601)。
例えば、項目名データベース106に図9Aのような情報が格納されているときに、つぎの文章が、情報処理装置10-3の入力として与えられたとする。なお/は、文章の分割例を示す。
文章:「訪問/し/た/日/は/8/月/21/日/です/。」
SLOTNAME=訪問日
SECONDKEY=訪問した日
テンプレート名=confirm
がセットされて、通知部108が起動される。
通知部108の処理により、
「訪問した日とは訪問日のことでしょうか?」
という応答文が生成されて、ユーザに提示される。
テンプレート名=determined
をセットし、「訪問日に入力します。」という応答文をユーザに提示する。
テンプレート名=not_determined
をセットし、「もういちど訪問日を入力してください。」等、項目名を特定できないことを通知する応答文をユーザに提示する。
図13は第1乃至第3実施形態の情報処理装置10~10-3のハードウェア構成の例を示す図である。情報処理装置10~10-3のハードウェア構成は同様なので、情報処理装置10について説明する。
101 分割部
102 抽出部
103 検出部
104 記憶部
105 検索部
106 項目名データベース
107 推定部
108 通知部
109 登録部
301 制御装置
302 主記憶装置
303 補助記憶装置
304 表示装置
305 入力装置
306 通信装置
Claims (9)
- 第1のキーワードを第1の単語に分割し、文章を第2の単語に分割する分割部と、
前記第1のキーワードの先頭の前記第1の単語と一致する前記第2の単語を先頭に含む単語列、及び、前記第1のキーワードの末尾の前記第1の単語と一致する前記第2の単語を末尾に含む単語列の少なくとも一方を、前記文章から抽出する抽出部と、
前記単語列と前記第1のキーワードとの文字の類似性を示す文字類似度、及び、前記単語列の構成と前記第1のキーワードの構成との類似性を示す構成類似度に基づいて、第2のキーワードを検出する検出部と、を備え、
前記構成類似度は、前記単語列に含まれる前記第2の単語のうち、前記第1の単語と一致する前記第2の単語の数に基づいて定められる、
情報処理装置。 - 類語辞書を用いて、前記第1の単語に類似する類語を検索する検索部を更に備え、
前記抽出部は、前記第1のキーワードの先頭の前記第1の単語に類似する類語と一致する前記第2の単語を先頭に含む単語列、及び、前記第1のキーワードの末尾の前記第1の単語に類似する類語と一致する前記第2の単語を末尾に含む単語列の少なくとも一方を、前記文章から更に抽出する、
請求項1に記載の情報処理装置。 - 前記文章は、ユーザの発話から音声認識され、
前記第1のキーワードは、フォームデータに含まれる項目名を示し、
前記第2のキーワードから前記項目名を推定する推定部、
を更に備える請求項1に記載の情報処理装置。 - 前記項目名と、前記項目名の言い換え表現とを関連付けて記憶する記憶部と、
前記第2のキーワードを、前記言い換え表現として前記記憶部に登録する登録部と、
を更に備える請求項3に記載の情報処理装置。 - 前記第2のキーワードが前記項目名に対応するか否かを前記ユーザに確認し、前記第2のキーワードが前記項目名に対応しない場合、前記項目名を特定できないことを通知する通知部、
を更に備える請求項4に記載の情報処理装置。 - 前記第2のキーワードを前記言い換え表現として登録するか否かを前記ユーザに確認し、前記第2のキーワードを前記言い換え表現として登録する場合、前記第2のキーワードの登録を前記登録部に依頼する通知部、
を更に備える請求項4に記載の情報処理装置。 - 前記文字類似度は、コサイン類似度及びレーベンシュタイン距離の少なくとも一方に基づいて定められる、
請求項1に記載の情報処理装置。 - 情報処理装置が、第1のキーワードを第1の単語に分割し、文章を第2の単語に分割するステップと、
前記情報処理装置が、前記第1のキーワードの先頭の前記第1の単語と一致する前記第2の単語を先頭に含む単語列、及び、前記第1のキーワードの末尾の前記第1の単語と一致する前記第2の単語を末尾に含む単語列の少なくとも一方を、前記文章から抽出するステップと、
前記情報処理装置が、前記単語列と前記第1のキーワードとの文字の類似性を示す文字類似度、及び、前記単語列の構成と前記第1のキーワードの構成との類似性を示す構成類似度に基づいて、第2のキーワードを検出するステップと、を含み、
前記構成類似度は、前記単語列に含まれる前記第2の単語のうち、前記第1の単語と一致する前記第2の単語の数に基づいて定められる、
情報処理方法。 - コンピュータを、
第1のキーワードを第1の単語に分割し、文章を第2の単語に分割する分割部と、
前記第1のキーワードの先頭の前記第1の単語と一致する前記第2の単語を先頭に含む単語列、及び、前記第1のキーワードの末尾の前記第1の単語と一致する前記第2の単語を末尾に含む単語列の少なくとも一方を、前記文章から抽出する抽出部と、
前記単語列と前記第1のキーワードとの文字の類似性を示す文字類似度、及び、前記単語列の構成と前記第1のキーワードの構成との類似性を示す構成類似度に基づいて、第2のキーワードを検出する検出部、として機能させ、
前記構成類似度は、前記単語列に含まれる前記第2の単語のうち、前記第1の単語と一致する前記第2の単語の数に基づいて定められる、
プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019214360A JP7475844B2 (ja) | 2019-11-27 | 2019-11-27 | 情報処理装置、情報処理方法及びプログラム |
CN202080082266.9A CN114746862A (zh) | 2019-11-27 | 2020-11-26 | 信息处理装置、信息处理方法以及程序 |
PCT/JP2020/044012 WO2021107006A1 (ja) | 2019-11-27 | 2020-11-26 | 情報処理装置、情報処理方法及びプログラム |
US17/663,359 US20220270589A1 (en) | 2019-11-27 | 2022-05-13 | Information processing device, information processing method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019214360A JP7475844B2 (ja) | 2019-11-27 | 2019-11-27 | 情報処理装置、情報処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021086362A JP2021086362A (ja) | 2021-06-03 |
JP7475844B2 true JP7475844B2 (ja) | 2024-04-30 |
Family
ID=76088868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019214360A Active JP7475844B2 (ja) | 2019-11-27 | 2019-11-27 | 情報処理装置、情報処理方法及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220270589A1 (ja) |
JP (1) | JP7475844B2 (ja) |
CN (1) | CN114746862A (ja) |
WO (1) | WO2021107006A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102483584B1 (ko) * | 2021-12-03 | 2023-01-02 | 한국과학기술정보연구원 | 표준 항목명을 이용한 데이터셋 관리 방법, 그리고 이를 구현하기 위한 장치 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018045460A (ja) | 2016-09-14 | 2018-03-22 | 株式会社東芝 | 入力支援装置およびプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01217623A (ja) * | 1988-02-26 | 1989-08-31 | Nippon Telegr & Teleph Corp <Ntt> | キーワード自動生成装置 |
JPH0973454A (ja) * | 1995-09-01 | 1997-03-18 | Toshiba Corp | 文書作成装置及び文書作成方法 |
JP2004013726A (ja) * | 2002-06-10 | 2004-01-15 | Sumitomo Electric Ind Ltd | キーワード抽出装置および情報検索装置 |
JP5791861B2 (ja) * | 2008-07-25 | 2015-10-07 | シャープ株式会社 | 情報処理装置および情報処理方法 |
CN107423348A (zh) * | 2017-05-17 | 2017-12-01 | 东莞市华睿电子科技有限公司 | 一种基于关键词的精确检索方法 |
CN109508378B (zh) * | 2018-11-26 | 2023-07-14 | 平安科技(深圳)有限公司 | 一种样本数据处理方法及装置 |
-
2019
- 2019-11-27 JP JP2019214360A patent/JP7475844B2/ja active Active
-
2020
- 2020-11-26 WO PCT/JP2020/044012 patent/WO2021107006A1/ja active Application Filing
- 2020-11-26 CN CN202080082266.9A patent/CN114746862A/zh active Pending
-
2022
- 2022-05-13 US US17/663,359 patent/US20220270589A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018045460A (ja) | 2016-09-14 | 2018-03-22 | 株式会社東芝 | 入力支援装置およびプログラム |
Non-Patent Citations (1)
Title |
---|
齋藤 鎮成 外3名,開発文書作成支援技術に関する一考察 複合語の類似度計算に関する提案,電子情報通信学会2019年総合大会講演論文集 通信2 ,一般社団法人電子情報通信学会 ,2019年03月05日,pp.S-106~S-107,SAITOU, Tsunenari, "A Proposal for Method of Similarity Calculation for Compound Words", PROCEEDINGS OF THE 2019 IEICE GENERAL CONFERENCE, THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS |
Also Published As
Publication number | Publication date |
---|---|
US20220270589A1 (en) | 2022-08-25 |
JP2021086362A (ja) | 2021-06-03 |
CN114746862A (zh) | 2022-07-12 |
WO2021107006A1 (ja) | 2021-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2016269573B2 (en) | Input entity identification from natural language text information | |
US10102191B2 (en) | Propagation of changes in master content to variant content | |
US7295964B2 (en) | Apparatus and method for selecting a translation word of an original word by using a target language document database | |
JP5802292B2 (ja) | 共有された言語モデル | |
JP2007257644A (ja) | 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置 | |
JP2020126493A (ja) | 対訳処理方法および対訳処理プログラム | |
JP2014232452A (ja) | 翻訳語順情報出力装置、翻訳語順情報出力方法、およびプログラム | |
JP2018041336A (ja) | 計算機及び応答の生成方法 | |
JP2022069790A (ja) | 情報処理装置、情報処理方法、プログラム | |
KR20160143491A (ko) | 텍스트 분할 프로그램, 텍스트 분할 장치, 및 텍스트 분할 방법 | |
US8554539B2 (en) | Method for analyzing morpheme using additional information and morpheme analyzer for executing the method | |
JP7475844B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP6705352B2 (ja) | 言語処理装置、言語処理方法、及び言語処理プログラム | |
US10552463B2 (en) | Creation of indexes for information retrieval | |
JP2016519370A (ja) | データ処理装置、データ処理方法及び電子機器 | |
Yu et al. | Identification of Code‐Switched Sentences and Words Using Language Modeling Approaches | |
JP5670293B2 (ja) | 単語追加装置、単語追加方法、およびプログラム | |
US10572592B2 (en) | Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases | |
JP4693065B2 (ja) | 人名表現同定装置、その方法、プログラム及び記録媒体 | |
KR102341563B1 (ko) | 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법 | |
WO2019239877A1 (ja) | 知的財産支援装置および知的財産支援方法並びに知的財産支援プログラム | |
CN111506704A (zh) | 日语关键词组生成方法、装置、电子设备、存储介质 | |
JP3775239B2 (ja) | テキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体 | |
KR102500106B1 (ko) | 약어 사전 구축 장치 및 방법 | |
WO2021009972A1 (ja) | 自然言語処理方法、自然言語処理システム、及び、自然言語処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221101 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240319 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240417 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7475844 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |