JP2010282612A - Web reader system using tts server and method thereof - Google Patents
Web reader system using tts server and method thereof Download PDFInfo
- Publication number
- JP2010282612A JP2010282612A JP2010103816A JP2010103816A JP2010282612A JP 2010282612 A JP2010282612 A JP 2010282612A JP 2010103816 A JP2010103816 A JP 2010103816A JP 2010103816 A JP2010103816 A JP 2010103816A JP 2010282612 A JP2010282612 A JP 2010282612A
- Authority
- JP
- Japan
- Prior art keywords
- web
- tts
- reader
- text
- client
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 5
- 239000000284 extract Substances 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
本発明は、TTSサーバーを用いたウェブリーダーシステム及び方法に関する。より具体的に本発明は、ウェブページでマウスポインターが位置する部分のテキストを抽出して音声に合成し、それを再生するシステム及び方法に関する。 The present invention relates to a web reader system and method using a TTS server. More specifically, the present invention relates to a system and method for extracting a text of a portion where a mouse pointer is located on a web page, synthesizing the text, and reproducing it.
最近、TTS(Text To Speech)技術が急に発達することに応じて、様々な方法でTTS機能を応用して生活の便宜を提供しようとする研究が活発である。 In recent years, in response to the rapid development of TTS (Text To Speech) technology, research to provide convenience of life by applying the TTS function in various ways is active.
電話機を通じて音声で銀行口座、株式、天気などの情報を提供受けることのできるシステムがあり、最近には受信したイーメールをTTSを通じて音声で聞くことのできる製品も出ている。 There are systems that can provide information such as bank accounts, stocks, and weather via telephone, and recently there are products that can listen to received e-mails via TTS.
特に、インターネット上では、インターネットコンテンツを音声に合成してくれるとか、音声で望むウェブページにアクセスできるようにしてくれる技術が提案されている。 In particular, on the Internet, technologies have been proposed that synthesize Internet content into speech or that allow users to access desired web pages by speech.
しかしながら、既存のこのようなウェブページでTTS機能を用いるためには、オペレーティングシステムやウェブブラウザーの種類に従属的な機能(例えば、Active X(登録商標))を用いて制限的なオペレーティングシステム(例えば、Windows(登録商標))と制限的なウェブブラウザー(例えば、Internet Explorer(登録商標))を使用すべきだとの問題点がある。 However, in order to use the TTS function in such an existing web page, a limited operating system (for example, Active X (registered trademark)) using a function dependent on the type of the operating system or the web browser (for example, Active X (registered trademark)). , Windows (registered trademark)) and a limited web browser (for example, Internet Explorer (registered trademark)) should be used.
それで、本発明者は、運営体制やウェブブラウザーの種類に関わらず動作するようにするため、ジャバスクリプト(登録商標)を用いてウェブページのテキスト情報をTTSサーバーに持ち込んで、TTSサーバーの音声データをウェブページに送り出すシステムを開発することに至る。 Therefore, the present inventor brought the text information of the web page to the TTS server using Javascript (registered trademark) to operate regardless of the operating system and the type of the web browser, and the voice data of the TTS server. It will lead to the development of the system which sends out to the web page.
本発明の目的は、ウェブページでTTSサービスを提供することにある。 An object of the present invention is to provide a TTS service on a web page.
本発明の他の目的は、オペレーティングシステムやウェブブラウザーの種類に関わらず用いることができるTTSサービスを提供することにある。 Another object of the present invention is to provide a TTS service that can be used regardless of the type of operating system or web browser.
本発明の前記及びその他の目的は、下記で説明される本発明によりすべて達成することができる。 The above and other objects of the present invention can be achieved by the present invention described below.
本発明のTTSサーバーを用いたウェブリーダーシステムは、オペレーティングシステムやウェブブラウザーの種類に関わらず動作するTTSサービスを提供するために、ジャバスクリプトを用いてウェブページのテキスト情報をTTSサーバーに持ち込んで、TTSサーバーの音声データをウェブページに送り出すことを特徴とする。 The web reader system using the TTS server of the present invention brings the text information of the web page to the TTS server using Javascript in order to provide a TTS service that operates regardless of the type of operating system or web browser. The voice data of the TTS server is sent to a web page.
本発明は、オペレーティングシステムやウェブブラウザーの種類に関わらず用いることができるTTSサービスを提供する。 The present invention provides a TTS service that can be used regardless of the type of operating system or web browser.
図1は、本発明に係るシステムの概略的な構成図である。 FIG. 1 is a schematic configuration diagram of a system according to the present invention.
図1を参照すると、本発明は、ウェブリーダーWASクライアント(30)、ウェブリーダーWAS(40)、TTSサーバー(50)、TTSエンジン(60)、音声データベース(70)からなる。 Referring to FIG. 1, the present invention includes a web reader WAS client (30), a web reader WAS (40), a TTS server (50), a TTS engine (60), and a speech database (70).
ウェブリーダーWASクライアント(30)は、ウェブページでマウスポインターが位置する部分のテキストを抽出し、抽出したテキストをウェブリーダーWASに伝達し、ウェブリーダーWASから伝達された音声データをウェブブラウザー(10)で再生することができるようにウェブページ(20)を実時間で修正する。このとき、テキストを抽出して音声データを再生するようにウェブページを実時間で修正することにはジャバスクリプトを用いる。 The web reader WAS client (30) extracts the text of the part where the mouse pointer is located on the web page, transmits the extracted text to the web reader WAS, and the voice data transmitted from the web reader WAS is transmitted to the web browser (10). The web page (20) is modified in real time so that it can be played at. At this time, Javascript is used to correct the web page in real time so that the text is extracted and the audio data is reproduced.
ウェブリーダーWAS(40)は、ウェブリーダーWASクライアント(30)が抽出したテキストをTTSサーバーに伝送し、TTSサーバーから音声データを受信してウェブブラウザーが解析することができるように、適当なウェブプロトコルを用いてウェブリーダーWASクライアント(30)に再伝送する。 The web reader WAS (40) transmits the text extracted by the web reader WAS client (30) to the TTS server, receives voice data from the TTS server, and can be analyzed by the web browser. To the web reader WAS client (30).
TTSサーバー(50)は、ウェブリーダーWAS(40)から受信したテキスト情報をTTSエンジンに伝送して、TTSエンジンで合成された音声データをTCP/IPを通じてウェブリーダーWASにサービスする。 The TTS server (50) transmits the text information received from the web reader WAS (40) to the TTS engine, and services the voice data synthesized by the TTS engine to the web reader WAS via TCP / IP.
TTSエンジン(60)は、ウェブリーダーWASクライアント(30)が抽出したテキスト情報に基づいて、音声データベース(70)を用いて音声データを合成する。 The TTS engine (60) synthesizes voice data using the voice database (70) based on the text information extracted by the web reader WAS client (30).
音声データベース(70)は、TTSエンジンで用いる音声が入っているデータベースである。 The voice database (70) is a database containing voice used in the TTS engine.
図2は、本発明のTTSサーバーを用いたウェブリーダーシステムの動作の流れ図であって、動作の順序は次のようである。 FIG. 2 is a flowchart of the operation of the web reader system using the TTS server of the present invention, and the order of operations is as follows.
第1の段階は、テキストを抽出する段階である。TTSウェブリーダーWASクライアント(30)は、ウェブブラウザー(10)を通じて接続したウェブサーバーに位置したウェブページ(20)で現在マウスポインターが位置する部分の有効なテキストをジャバスクリプトを用いて抽出する。 The first stage is a stage for extracting text. The TTS web reader WAS client (30) extracts the valid text of the part where the mouse pointer is currently located in the web page (20) located on the web server connected through the web browser (10) using Javascript.
図3は、TTSウェブリーダーWASクライアント(30)のテキストを抽出するソースコードの一例である。なお、図3に示すソースコードの著作権は出願人にある。 FIG. 3 is an example of source code for extracting the text of the TTS web reader WAS client (30). Note that the copyright of the source code shown in FIG. 3 belongs to the applicant.
第2の段階は、第1の段階で抽出したテキストをTTSエンジンに伝送する段階である。TTSウェブリーダーWASクライアント(30)は、抽出したテキストをTTSウェブリーダーWAS(40)に伝達する。TTSウェブリーダーWASは、伝達されたテキストを再度TTSサーバー(50)に伝達し、TTSサーバーに伝達されたテキストはTTSエンジンに伝送される。 The second stage is a stage in which the text extracted in the first stage is transmitted to the TTS engine. The TTS web reader WAS client (30) transmits the extracted text to the TTS web reader WAS (40). The TTS web reader WAS transmits the transmitted text to the TTS server (50) again, and the transmitted text is transmitted to the TTS engine.
第3の段階は、第2の段階でTTSエンジン(60)に伝送されたテキストに基づいて音声を合成する段階である。TTSエンジンは、伝送されたテキストに該当する音声データを音声データベース(70)から検索して音声を合成する。 The third step is a step of synthesizing speech based on the text transmitted to the TTS engine (60) in the second step. The TTS engine searches the speech database (70) for speech data corresponding to the transmitted text and synthesizes speech.
第4の段階は、合成された音声データをTTSウェブリーダークライアントに伝送する段階である。前記合成された音声データは、TTSサーバー(50)を経てウェブリーダーWAS(40)に伝送され、ウェブリーダーWASは、音声データをウェブプロトコルに合わせてウェブリーダーWASクライアント(30)に再伝送する。 The fourth step is a step of transmitting the synthesized voice data to the TTS web reader client. The synthesized voice data is transmitted to the web reader WAS (40) via the TTS server (50), and the web reader WAS retransmits the voice data to the web reader WAS client (30) in accordance with the web protocol.
第5の段階は、伝送された音声データに基づいてウェブページを修正する段階である。ウェブリーダーWASクライアント(30)は、ウェブリーダーWAS(40)から伝達された音声データをウェブブラウザーで再生することができるようにウェブページ(20)を実時間で修正する。 The fifth step is a step of modifying the web page based on the transmitted audio data. The web reader WAS client (30) modifies the web page (20) in real time so that the audio data transmitted from the web reader WAS (40) can be reproduced by the web browser.
第6の段階は、音声を再生する段階である。ウェブリーダーWASクライアント(30)がウェブページ(20)を修正すると、ウェブブラウザー(10)は修正されたウェブページを通じて音声を再生することになる。 The sixth stage is a stage for reproducing sound. When the web reader WAS client (30) modifies the web page (20), the web browser (10) reproduces sound through the modified web page.
したがって、本発明のTTSサーバーを用いたウェブリーダーシステム及びその方法は、ウェブページの上にマウスポインターを位置させるとマウスポインターが位置する部分のテキストを抽出して音声データを合成し、合成された音声データをウェブブラウザーで実時間で再生することになる。 Therefore, the web reader system and method using the TTS server of the present invention are synthesized by extracting the text of the part where the mouse pointer is located and synthesizing the voice data when the mouse pointer is positioned on the web page. Audio data will be played in real time on a web browser.
本発明の単純な変形ないし変更は、この分野の通常の知識を有する者により容易に実施でき、このような変形や変更はすべて本発明の領域に含まれる。 Simple variations or modifications of the present invention can be easily carried out by those having ordinary knowledge in the field, and all such variations and modifications are included in the scope of the present invention.
10…ウェブブラウザー、20…ウェブページ、30…ウェブリーダーWASクライアント、40…ウェブリーダーWAS、50…TTSサーバー、60…TTSエンジン、70…音声データベース。
DESCRIPTION OF
Claims (4)
前記ウェブリーダーWASクライアントからテキスト情報を受信して、音声データを前記ウェブリーダーWASクライアントに伝送するウェブリーダーWAS(40)と、
前記ウェブリーダーWASからテキスト情報を受信して、TCP/IPを用いて前記ウェブリーダーWASに音声情報をサービスするTTSサーバー(50)と、
音声データを貯蔵して管理する音声データベース(70)と、
前記ウェブリーダーWASクライアントで抽出したテキスト情報をTTSサーバーから受信し、前記音声データベースを用いて音声データを合成し、前記合成した音声データをTTSサーバーに再伝送するTTSエンジン(60)とを
含むTTSサーバーを用いたウェブリーダーシステム。 A web reader WAS client (30) that extracts the text of the portion of the web page where the mouse pointer is located and modifies the web page in real time so that the audio data can be played back by the web browser;
A web reader WAS (40) that receives text information from the web reader WAS client and transmits voice data to the web reader WAS client;
A TTS server (50) that receives text information from the web reader WAS and services voice information to the web reader WAS using TCP / IP;
An audio database (70) for storing and managing audio data;
A TTS including a TTS engine (60) that receives text information extracted by the web reader WAS client from a TTS server, synthesizes voice data using the voice database, and retransmits the synthesized voice data to the TTS server. Web reader system using a server.
前記抽出したテキストをTTSエンジンに伝送する段階と、
前記伝送されたテキストに基づいて音声を合成する段階と、
前記合成された音声データをTTSウェブリーダークライアントに伝送する段階と、
前記伝送された音声データに基づいてウェブブラウザーで音声を再生することができるようにウェブページを修正する段階と、
音声を再生する段階とを
含むTTSサーバーを用いたウェブリーダーシステムを駆動する方法。 Extracting the text of the part where the mouse pointer is located using a TTS web reader client;
Transmitting the extracted text to a TTS engine;
Synthesizing speech based on the transmitted text;
Transmitting the synthesized voice data to a TTS web reader client;
Modifying the web page so that the web browser can play audio based on the transmitted audio data;
A method of driving a web reader system using a TTS server, including the step of playing audio.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090049938A KR101040585B1 (en) | 2009-06-05 | 2009-06-05 | Web Reader System Using TTS Server and the Method Thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010282612A true JP2010282612A (en) | 2010-12-16 |
Family
ID=43507267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010103816A Pending JP2010282612A (en) | 2009-06-05 | 2010-04-28 | Web reader system using tts server and method thereof |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2010282612A (en) |
KR (1) | KR101040585B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111199724A (en) * | 2019-12-31 | 2020-05-26 | 出门问问信息科技有限公司 | Information processing method and device and computer readable storage medium |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101406983B1 (en) * | 2013-09-10 | 2014-06-13 | 김길원 | System, server and user terminal for text to speech using text recognition |
KR20210121812A (en) | 2020-03-31 | 2021-10-08 | (주)에듀윌 | Text editor program, and method for providing learning service using the text editor program and personalized text to speech server |
KR20230166189A (en) | 2022-05-30 | 2023-12-07 | 이어가다 주식회사 | Electronic appparatus for recommending voice preferred by user based on feature vector of speaker, and control method thereof |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002366853A (en) * | 2001-03-01 | 2002-12-20 | Akiyasu Cho | Method and system for providing voice information through communication network and method for voice operation at site virtually built through communication network |
JP2008096489A (en) * | 2006-10-06 | 2008-04-24 | Pentax Corp | Voice generating system, voice generating method, voice generating server and voice generating program |
JP2009075625A (en) * | 2007-07-20 | 2009-04-09 | Hidemi Yamamoto | Information processing system and program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100923942B1 (en) * | 2007-12-04 | 2009-10-29 | 엔에이치엔(주) | Method, system and computer-readable recording medium for extracting text from web page, converting same text into audio data file, and providing resultant audio data file |
-
2009
- 2009-06-05 KR KR1020090049938A patent/KR101040585B1/en active IP Right Grant
-
2010
- 2010-04-28 JP JP2010103816A patent/JP2010282612A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002366853A (en) * | 2001-03-01 | 2002-12-20 | Akiyasu Cho | Method and system for providing voice information through communication network and method for voice operation at site virtually built through communication network |
JP2008096489A (en) * | 2006-10-06 | 2008-04-24 | Pentax Corp | Voice generating system, voice generating method, voice generating server and voice generating program |
JP2009075625A (en) * | 2007-07-20 | 2009-04-09 | Hidemi Yamamoto | Information processing system and program |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111199724A (en) * | 2019-12-31 | 2020-05-26 | 出门问问信息科技有限公司 | Information processing method and device and computer readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
KR20100131172A (en) | 2010-12-15 |
KR101040585B1 (en) | 2011-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9177551B2 (en) | System and method of providing speech processing in user interface | |
CN108615527B (en) | Data processing method, device and storage medium based on simultaneous interpretation | |
TWI249729B (en) | Voice browser dialog enabler for a communication system | |
RU2010132237A (en) | METHOD AND DEVICE FOR IMPLEMENTATION OF DISTRIBUTED MULTIMODAL APPLICATIONS | |
JP5542156B2 (en) | Recognizer markup language-based selection and use for speech processing | |
US8032378B2 (en) | Content and advertising service using one server for the content, sending it to another for advertisement and text-to-speech synthesis before presenting to user | |
US20090055186A1 (en) | Method to voice id tag content to ease reading for visually impaired | |
TW200809769A (en) | Sharing voice application processing via markup | |
CN103514882B (en) | A kind of audio recognition method and system | |
CA2440291A1 (en) | Method and apparatus for annotating a document with audio comments | |
CN1286304C (en) | Method of realizing scene chat between customers in instant communication | |
JP5441455B2 (en) | Network-based service provision system | |
CN1984201A (en) | Voice services system and method | |
US8095673B2 (en) | Generic format for efficient transfer of data | |
JP2009009309A (en) | Server system, and its operation control method and its control program | |
JP2010282612A (en) | Web reader system using tts server and method thereof | |
US20230169990A1 (en) | Emotionally-aware voice response generation method and apparatus | |
Di Fabbrizio et al. | A speech mashup framework for multimodal mobile services | |
EP1052828A3 (en) | System and method for providing multimedia information over a network | |
JP2006293455A (en) | Invalid data confirmation system | |
GB2330429A (en) | Data stream enhancement | |
TW201042469A (en) | Communication server and method of processing messages utilizing the server | |
SE0201898D0 (en) | A method and an apparatus for styling a web service | |
JP2005151553A (en) | Voice portal | |
KR102470697B1 (en) | System to provide a service for reciting poetry based on artificial intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120814 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130129 |