JP2022107933A - dialogue system - Google Patents
dialogue system Download PDFInfo
- Publication number
- JP2022107933A JP2022107933A JP2021002644A JP2021002644A JP2022107933A JP 2022107933 A JP2022107933 A JP 2022107933A JP 2021002644 A JP2021002644 A JP 2021002644A JP 2021002644 A JP2021002644 A JP 2021002644A JP 2022107933 A JP2022107933 A JP 2022107933A
- Authority
- JP
- Japan
- Prior art keywords
- text data
- voice
- recording device
- audio
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000000284 extract Substances 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 2
- 206010010144 Completed suicide Diseases 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000000034 method Methods 0.000 description 1
Images
Abstract
Description
本発明は、ユーザーの発話に対応して予め記録した音声および動画を表示する対話システムに関するものである。 The present invention relates to a dialogue system that displays pre-recorded audio and video corresponding to user's utterances.
近年、ユーザーの発話に対して応答を返す多くの対話システムが開発されている。例えば、ユーザーの発話に対して、音声だけで対話するシステム、特許文献1に記述されているような絵画像とテキストを表示させるシステム、特許文献2に記述されているような故人や有名人の静止画像を変形させて音声とともに出力するシステムなどがある。
In recent years, many dialogue systems have been developed that return responses to user utterances. For example, a system that interacts only with voice in response to user's utterance, a system that displays pictures and text as described in
しかしながら、これまでの対話システムでは、対話する相手が機械的に合成された音声であったり、絵画像であったり、現実の人であっても静止画像を変形させて対話しているように見せている画像であったため、実際に話したい人と対話していると感じる状態ではなかった。 However, in existing dialogue systems, even if the dialogue partner is a mechanically synthesized voice, a picture, or a real person, the static image is deformed to make it appear as if they are having a dialogue. Because the image was that of a person with whom I wanted to talk, I did not feel like I was actually having a conversation with the person I wanted to talk to.
本発明は、上記を解決するために実際に話したい人と対話しているように感じられる対話システムを提供することを目的としている。 SUMMARY OF THE INVENTION It is an object of the present invention to provide a dialog system that makes it feel like you are actually interacting with a person you want to talk to in order to solve the above problems.
本発明は、予め記録された音声および動画の中からユーザーの発話に対応した音声および動画を抽出して表示することを主な特徴としている。また、複数の人の音声および動画を記録しておき、その中からユーザーが話したい人を選択した後、ユーザーの発話に対応した音声および動画を抽出して表示する手段をとることもできる。 The main feature of the present invention is to extract and display the audio and video corresponding to the user's utterance from pre-recorded audio and video. It is also possible to record the voices and videos of a plurality of people, select the person the user wants to talk to from among them, and then extract and display the voices and videos corresponding to the user's utterances.
本発明の対話システムは、実際に話したい人の音声と動画を表示させるため、機械的な相手ではなく本当に話したい人との対話を楽しむことができる。 Since the dialogue system of the present invention displays the voice and moving image of the person who actually wants to talk, it is possible to enjoy dialogue with the person who really wants to talk, not with a mechanical partner.
さらに、本発明を自治体や企業への問い合わせに利用した場合、人件費の削減が期待できる。また、悩みを持つ人にとっては、通常話すことのできない著名人や故人と話すことにより、前向きに生きていこうとする気持ちが現れ、うつ状態に陥ることや自殺などを食い止めることが期待できる。 Furthermore, when the present invention is used for inquiries to local governments and companies, a reduction in personnel costs can be expected. Also, for people with worries, talking to celebrities and the deceased, who they usually cannot talk to, can be expected to make them feel like they want to live positively and prevent them from falling into a depressed state or committing suicide.
本発明の形態を以下の実施例で説明する。 Aspects of the invention are illustrated in the following examples.
図1は、本発明のブロック図である。入力装置1はカメラ101とマイク102とを備えており、登録者は入力装置1を用いて応答パターンとして音声および動画を入力する。音声動画処理部2は入力された音声をテキストデータに変換してテキストデータ記録装置3に記録し、音声および動画を音声動画記録装置4に記録する。音声動画記録装置4に記録された音声および動画は1つにまとめて格納され固有の識別子が付与される。テキストデータ記録装置3に記録されたテキストデータにも音声および動画に付与された識別子と同じ識別子が付与される。応答パターンは様々な対話場面を想定して複数記録するとよい。識別子は応答パターンごとに付与される。
FIG. 1 is a block diagram of the present invention. The
入出力装置5はマイク501を備えており、ユーザーは入出力装置5を用いて音声を入力する。音声認識部6はユーザーの入力した音声をテキストデータへと変換する。言語理解部7は音声認識部6で得られたテキストデータからユーザーの意図を同定する。言語理解部7の結果は応答事例選択部8に渡され、テキストデータ記録装置3から応答事例に適合または最も近いテキストデータを選択する。応答事例選択部8は選択したテキストデータに付与された識別子を音声動画指定部9に渡し、音声動画指定部9はこの識別子に合致した音声および動画を音声動画記録装置4から抽出し、入出力装置5に送る。入出力装置5は表示部502を備えており、送られた音声および動画を再生する。音声認識および言語理解については既知の技術であるため詳細な説明は省略する。
The input/
本発明の登録者は有識者や自治体の相談員等が考えられる。登録者は予め想定される質問に対する応答パターンとして音声および動画を登録し、ユーザーの質問に対する応答に近い音声および動画を再生することが出来る。 Registrants of the present invention can be thought of as intellectuals, counselors of local governments, and the like. A registrant can register voice and video as a response pattern to an assumed question in advance, and reproduce voice and video similar to the response to the user's question.
応答パターンを登録する登録者は音声および動画の入力に先立って登録者に関する固有情報、例えば登録者名を入力装置1に備えたキーボード103によって入力する。入力された固有情報は固有情報記録装置10に記録される。その後、入力装置1を用いて登録者は応答パターンとして音声および動画を入力する。入力された音声および動画は音声動画処理部2に渡され1つにまとめた状態で音声動画記録装置4に記録される。また、音声はテキストデータに変換されテキストデータ記録装置3に記録される。この時、実施例1と同様にテキストデータと音声および動画には同じ固有の識別子が付与されるが、テキストデータには固有情報記録装置10に記録された固有情報も付与される。
A registrant who registers a response pattern inputs unique information about the registrant, such as a registrant's name, using the keyboard 103 provided in the
対話を始める際、ユーザーは対話する相手を指定するために入出力装置5に備えたキーボード503を用いて対話する相手の固有情報を入力する。入力された固有情報は指定情報一時保管装置11に一時保管される。次に、ユーザーは入出力装置5を用いて音声を入力し対話を開始する。音声認識部6はユーザーの入力した音声をテキストデータへと変換する。言語理解部7は音声認識部6で得られたテキストデータからユーザーの意図を同定する。言語理解部7の結果は応答事例選択部8に渡される。応答事例選択部8は指定情報一時保管装置11に一時保管された固有情報に合致し、言語理解部7の結果に適合または最も近いテキストデータをテキストデータ記録装置3から選択する。応答事例選択部8は選択したテキストデータに付与された識別子を音声動画指定部9に渡し、音声動画指定部9はこの識別子に合致した音声および動画を音声動画記録装置4から抽出し、入出力装置5に送る。入出力装置5は送られた音声および動画を再生する。
When starting a dialogue, the user uses the
固有情報記録時のキーボード103による入力手段および固有情報指定時のキーボード503による入力手段は、キーボードに限らずタブレットでも構わない。また、音声を入力するように構成にすることも考えられる。
The input means using the keyboard 103 when recording unique information and the input means using the
固有情報の指定はキーボード503を用いて入力する代わりに固有情報記録装置10に記録された固有情報、例えば登録者名を選択する手段をとってもよい。登録者の固有情報を男女別、年齢等についても登録した場合、20代男性や50代女性等を指定してある特定の層と対話するように構成することも考えられる。
Instead of using the
ユーザーの対話手段として入出力装置5を使用して音声で入力するように構成しているが、キーボード等音声以外の入力手段をとるように構成することも可能である。これにより音声による対話が難しい人でも対話を楽しむことができる。
Although the input/
登録者が芸能人の場合、芸能人を指定して宴会等の乾杯の音頭をする音声および動画を再生してもよい。最初に芸能人を指定し、その後ユーザーによる「乾杯の音頭をお願いします」の音声に対して、指定された芸能人の乾杯の音頭の音声および動画が選択され再生される。乾杯の音頭の前に少し挨拶程度の対話をしてもよい。 If the registrant is an entertainer, the entertainer may be designated and the voice and video of the toast for a party or the like may be reproduced. First, an entertainer is designated, and then, in response to the user's voice "Cheers please", the voice and video of the designated entertainer's toast are selected and played back. Before the toast, you can have a little conversation about greetings.
非常に多くの音声および動画を記録させた場合、芸能人に限らず、著名人や一般人、故人と普通の対話を楽しむことも可能となり、利用する範囲を広げることができる。 When a large number of voices and moving images are recorded, it is possible to enjoy ordinary conversations not only with celebrities, but also with celebrities, ordinary people, and the deceased, and the range of use can be expanded.
1 入力装置
101 カメラ
102 マイク
103 キーボード
2 音声動画処理部
3 テキストデータ記録装置
4 音声動画記録装置
5 入出力装置
501 マイク
502 表示部
503 キーボード
6 音声認識部
7 言語理解部
8 応答事例選択部
9 音声動画指定部
10 固有情報記録装置
11 指定情報一時保管装置
1 input device 101
Claims (2)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021002644A JP7339615B2 (en) | 2021-01-12 | 2021-01-12 | dialogue system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021002644A JP7339615B2 (en) | 2021-01-12 | 2021-01-12 | dialogue system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022107933A true JP2022107933A (en) | 2022-07-25 |
JP7339615B2 JP7339615B2 (en) | 2023-09-06 |
Family
ID=82556162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021002644A Active JP7339615B2 (en) | 2021-01-12 | 2021-01-12 | dialogue system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7339615B2 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05216618A (en) * | 1991-11-18 | 1993-08-27 | Toshiba Corp | Voice interactive system |
JP2003296328A (en) * | 2002-04-03 | 2003-10-17 | Isao Nagaoka | Industrial information providing system |
JP2020160341A (en) * | 2019-03-27 | 2020-10-01 | ダイコク電機株式会社 | Video output system |
JP2020204711A (en) * | 2019-06-17 | 2020-12-24 | 株式会社日立製作所 | Registration system |
-
2021
- 2021-01-12 JP JP2021002644A patent/JP7339615B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05216618A (en) * | 1991-11-18 | 1993-08-27 | Toshiba Corp | Voice interactive system |
JP2003296328A (en) * | 2002-04-03 | 2003-10-17 | Isao Nagaoka | Industrial information providing system |
JP2020160341A (en) * | 2019-03-27 | 2020-10-01 | ダイコク電機株式会社 | Video output system |
JP2020204711A (en) * | 2019-06-17 | 2020-12-24 | 株式会社日立製作所 | Registration system |
Also Published As
Publication number | Publication date |
---|---|
JP7339615B2 (en) | 2023-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11699456B2 (en) | Automated transcript generation from multi-channel audio | |
CN205647778U (en) | Intelligent conference system | |
JP4085924B2 (en) | Audio processing device | |
US20120027217A1 (en) | Apparatus and method for merging acoustic object information | |
US8120638B2 (en) | Speech to text conversion in a videoconference | |
US9715873B2 (en) | Method for adding realism to synthetic speech | |
CN111294463B (en) | Intelligent response method and system | |
US20240104247A1 (en) | Privacy-aware meeting room transcription from audio-visual stream | |
JP6795668B1 (en) | Minutes creation system | |
JP2003255979A (en) | Data editing method, device and program | |
JP2005080110A (en) | Audio conference system, audio conference terminal, and program | |
CN113194203A (en) | Communication system, answering and dialing method and communication system for hearing-impaired people | |
JP2000207170A (en) | Device and method for processing information | |
KR20220109373A (en) | Method for providing speech video | |
JP6091690B1 (en) | Assembly management support system and assembly management support method | |
JP7339615B2 (en) | dialogue system | |
WO2018020828A1 (en) | Translation device and translation system | |
KR102147811B1 (en) | Speech recognition and word conversion of speaker in congress | |
US6501751B1 (en) | Voice communication with simulated speech data | |
JP2008109686A (en) | Voice conference terminal device and program | |
TWM574267U (en) | Live broadcast system of synchronous and automatic translation of real-time voice and subtitle | |
WO2021159734A1 (en) | Data processing method and apparatus, device, and medium | |
Dabrowski et al. | Development of PUEPS corpus of emergency telephone conversations | |
JP7103681B2 (en) | Speech recognition program, speech recognition method, speech recognition device and speech recognition system | |
JP2000333150A (en) | Video conference system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230306 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230725 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230810 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7339615 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |