JP2010282612A - Web reader system using tts server and method thereof - Google Patents

Web reader system using tts server and method thereof Download PDF

Info

Publication number
JP2010282612A
JP2010282612A JP2010103816A JP2010103816A JP2010282612A JP 2010282612 A JP2010282612 A JP 2010282612A JP 2010103816 A JP2010103816 A JP 2010103816A JP 2010103816 A JP2010103816 A JP 2010103816A JP 2010282612 A JP2010282612 A JP 2010282612A
Authority
JP
Japan
Prior art keywords
web
tts
reader
text
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010103816A
Other languages
Japanese (ja)
Inventor
Young Gug Kim
グック キム、ヨン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VOICEWARE CO Ltd
Original Assignee
VOICEWARE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by VOICEWARE CO Ltd filed Critical VOICEWARE CO Ltd
Publication of JP2010282612A publication Critical patent/JP2010282612A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a TTS service which reproduces text indicated by a mouse pointer on a web page by voice, regardless of the kinds of an operating system and a web browser. <P>SOLUTION: A web reader system includes a web reader WAS client 30, a web reader WAS 40, a TTS server 50, a TTS engine 60, and a voice database 70. The web reader system is driven by the steps of: extracting text, transferring the extracted text to the TTS engine, synthesizing voice, transferring the synthesized voice data to a TTS web reader client, correcting a web page so that voice can be reproduced by a web browser based on the transferred voice data, and reproducing the voice. The web page text information is transmitted to the TTS server using Java Script, to output the voice data in the TTS server to the web page. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、TTSサーバーを用いたウェブリーダーシステム及び方法に関する。より具体的に本発明は、ウェブページでマウスポインターが位置する部分のテキストを抽出して音声に合成し、それを再生するシステム及び方法に関する。   The present invention relates to a web reader system and method using a TTS server. More specifically, the present invention relates to a system and method for extracting a text of a portion where a mouse pointer is located on a web page, synthesizing the text, and reproducing it.

最近、TTS(Text To Speech)技術が急に発達することに応じて、様々な方法でTTS機能を応用して生活の便宜を提供しようとする研究が活発である。   In recent years, in response to the rapid development of TTS (Text To Speech) technology, research to provide convenience of life by applying the TTS function in various ways is active.

電話機を通じて音声で銀行口座、株式、天気などの情報を提供受けることのできるシステムがあり、最近には受信したイーメールをTTSを通じて音声で聞くことのできる製品も出ている。   There are systems that can provide information such as bank accounts, stocks, and weather via telephone, and recently there are products that can listen to received e-mails via TTS.

特に、インターネット上では、インターネットコンテンツを音声に合成してくれるとか、音声で望むウェブページにアクセスできるようにしてくれる技術が提案されている。   In particular, on the Internet, technologies have been proposed that synthesize Internet content into speech or that allow users to access desired web pages by speech.

しかしながら、既存のこのようなウェブページでTTS機能を用いるためには、オペレーティングシステムやウェブブラウザーの種類に従属的な機能(例えば、Active X(登録商標))を用いて制限的なオペレーティングシステム(例えば、Windows(登録商標))と制限的なウェブブラウザー(例えば、Internet Explorer(登録商標))を使用すべきだとの問題点がある。   However, in order to use the TTS function in such an existing web page, a limited operating system (for example, Active X (registered trademark)) using a function dependent on the type of the operating system or the web browser (for example, Active X (registered trademark)). , Windows (registered trademark)) and a limited web browser (for example, Internet Explorer (registered trademark)) should be used.

それで、本発明者は、運営体制やウェブブラウザーの種類に関わらず動作するようにするため、ジャバスクリプト(登録商標)を用いてウェブページのテキスト情報をTTSサーバーに持ち込んで、TTSサーバーの音声データをウェブページに送り出すシステムを開発することに至る。   Therefore, the present inventor brought the text information of the web page to the TTS server using Javascript (registered trademark) to operate regardless of the operating system and the type of the web browser, and the voice data of the TTS server. It will lead to the development of the system which sends out to the web page.

本発明の目的は、ウェブページでTTSサービスを提供することにある。   An object of the present invention is to provide a TTS service on a web page.

本発明の他の目的は、オペレーティングシステムやウェブブラウザーの種類に関わらず用いることができるTTSサービスを提供することにある。   Another object of the present invention is to provide a TTS service that can be used regardless of the type of operating system or web browser.

本発明の前記及びその他の目的は、下記で説明される本発明によりすべて達成することができる。   The above and other objects of the present invention can be achieved by the present invention described below.

本発明のTTSサーバーを用いたウェブリーダーシステムは、オペレーティングシステムやウェブブラウザーの種類に関わらず動作するTTSサービスを提供するために、ジャバスクリプトを用いてウェブページのテキスト情報をTTSサーバーに持ち込んで、TTSサーバーの音声データをウェブページに送り出すことを特徴とする。   The web reader system using the TTS server of the present invention brings the text information of the web page to the TTS server using Javascript in order to provide a TTS service that operates regardless of the type of operating system or web browser. The voice data of the TTS server is sent to a web page.

本発明は、オペレーティングシステムやウェブブラウザーの種類に関わらず用いることができるTTSサービスを提供する。   The present invention provides a TTS service that can be used regardless of the type of operating system or web browser.

本発明に係るTTSサーバーを用いたウェブリーダーシステムの構成図である。1 is a configuration diagram of a web reader system using a TTS server according to the present invention. FIG. 本発明のTTSサーバーを用いたウェブリーダーシステムの動作の流れ図である。It is a flowchart of operation | movement of the web reader system using the TTS server of this invention. 本発明のTTSウェブリーダーWASクライアントのテキストを抽出するソースコードの一例である。It is an example of the source code which extracts the text of the TTS web reader WAS client of this invention.

図1は、本発明に係るシステムの概略的な構成図である。   FIG. 1 is a schematic configuration diagram of a system according to the present invention.

図1を参照すると、本発明は、ウェブリーダーWASクライアント(30)、ウェブリーダーWAS(40)、TTSサーバー(50)、TTSエンジン(60)、音声データベース(70)からなる。   Referring to FIG. 1, the present invention includes a web reader WAS client (30), a web reader WAS (40), a TTS server (50), a TTS engine (60), and a speech database (70).

ウェブリーダーWASクライアント(30)は、ウェブページでマウスポインターが位置する部分のテキストを抽出し、抽出したテキストをウェブリーダーWASに伝達し、ウェブリーダーWASから伝達された音声データをウェブブラウザー(10)で再生することができるようにウェブページ(20)を実時間で修正する。このとき、テキストを抽出して音声データを再生するようにウェブページを実時間で修正することにはジャバスクリプトを用いる。   The web reader WAS client (30) extracts the text of the part where the mouse pointer is located on the web page, transmits the extracted text to the web reader WAS, and the voice data transmitted from the web reader WAS is transmitted to the web browser (10). The web page (20) is modified in real time so that it can be played at. At this time, Javascript is used to correct the web page in real time so that the text is extracted and the audio data is reproduced.

ウェブリーダーWAS(40)は、ウェブリーダーWASクライアント(30)が抽出したテキストをTTSサーバーに伝送し、TTSサーバーから音声データを受信してウェブブラウザーが解析することができるように、適当なウェブプロトコルを用いてウェブリーダーWASクライアント(30)に再伝送する。   The web reader WAS (40) transmits the text extracted by the web reader WAS client (30) to the TTS server, receives voice data from the TTS server, and can be analyzed by the web browser. To the web reader WAS client (30).

TTSサーバー(50)は、ウェブリーダーWAS(40)から受信したテキスト情報をTTSエンジンに伝送して、TTSエンジンで合成された音声データをTCP/IPを通じてウェブリーダーWASにサービスする。   The TTS server (50) transmits the text information received from the web reader WAS (40) to the TTS engine, and services the voice data synthesized by the TTS engine to the web reader WAS via TCP / IP.

TTSエンジン(60)は、ウェブリーダーWASクライアント(30)が抽出したテキスト情報に基づいて、音声データベース(70)を用いて音声データを合成する。   The TTS engine (60) synthesizes voice data using the voice database (70) based on the text information extracted by the web reader WAS client (30).

音声データベース(70)は、TTSエンジンで用いる音声が入っているデータベースである。   The voice database (70) is a database containing voice used in the TTS engine.

図2は、本発明のTTSサーバーを用いたウェブリーダーシステムの動作の流れ図であって、動作の順序は次のようである。   FIG. 2 is a flowchart of the operation of the web reader system using the TTS server of the present invention, and the order of operations is as follows.

第1の段階は、テキストを抽出する段階である。TTSウェブリーダーWASクライアント(30)は、ウェブブラウザー(10)を通じて接続したウェブサーバーに位置したウェブページ(20)で現在マウスポインターが位置する部分の有効なテキストをジャバスクリプトを用いて抽出する。   The first stage is a stage for extracting text. The TTS web reader WAS client (30) extracts the valid text of the part where the mouse pointer is currently located in the web page (20) located on the web server connected through the web browser (10) using Javascript.

図3は、TTSウェブリーダーWASクライアント(30)のテキストを抽出するソースコードの一例である。なお、図3に示すソースコードの著作権は出願人にある。   FIG. 3 is an example of source code for extracting the text of the TTS web reader WAS client (30). Note that the copyright of the source code shown in FIG. 3 belongs to the applicant.

第2の段階は、第1の段階で抽出したテキストをTTSエンジンに伝送する段階である。TTSウェブリーダーWASクライアント(30)は、抽出したテキストをTTSウェブリーダーWAS(40)に伝達する。TTSウェブリーダーWASは、伝達されたテキストを再度TTSサーバー(50)に伝達し、TTSサーバーに伝達されたテキストはTTSエンジンに伝送される。   The second stage is a stage in which the text extracted in the first stage is transmitted to the TTS engine. The TTS web reader WAS client (30) transmits the extracted text to the TTS web reader WAS (40). The TTS web reader WAS transmits the transmitted text to the TTS server (50) again, and the transmitted text is transmitted to the TTS engine.

第3の段階は、第2の段階でTTSエンジン(60)に伝送されたテキストに基づいて音声を合成する段階である。TTSエンジンは、伝送されたテキストに該当する音声データを音声データベース(70)から検索して音声を合成する。   The third step is a step of synthesizing speech based on the text transmitted to the TTS engine (60) in the second step. The TTS engine searches the speech database (70) for speech data corresponding to the transmitted text and synthesizes speech.

第4の段階は、合成された音声データをTTSウェブリーダークライアントに伝送する段階である。前記合成された音声データは、TTSサーバー(50)を経てウェブリーダーWAS(40)に伝送され、ウェブリーダーWASは、音声データをウェブプロトコルに合わせてウェブリーダーWASクライアント(30)に再伝送する。   The fourth step is a step of transmitting the synthesized voice data to the TTS web reader client. The synthesized voice data is transmitted to the web reader WAS (40) via the TTS server (50), and the web reader WAS retransmits the voice data to the web reader WAS client (30) in accordance with the web protocol.

第5の段階は、伝送された音声データに基づいてウェブページを修正する段階である。ウェブリーダーWASクライアント(30)は、ウェブリーダーWAS(40)から伝達された音声データをウェブブラウザーで再生することができるようにウェブページ(20)を実時間で修正する。   The fifth step is a step of modifying the web page based on the transmitted audio data. The web reader WAS client (30) modifies the web page (20) in real time so that the audio data transmitted from the web reader WAS (40) can be reproduced by the web browser.

第6の段階は、音声を再生する段階である。ウェブリーダーWASクライアント(30)がウェブページ(20)を修正すると、ウェブブラウザー(10)は修正されたウェブページを通じて音声を再生することになる。   The sixth stage is a stage for reproducing sound. When the web reader WAS client (30) modifies the web page (20), the web browser (10) reproduces sound through the modified web page.

したがって、本発明のTTSサーバーを用いたウェブリーダーシステム及びその方法は、ウェブページの上にマウスポインターを位置させるとマウスポインターが位置する部分のテキストを抽出して音声データを合成し、合成された音声データをウェブブラウザーで実時間で再生することになる。   Therefore, the web reader system and method using the TTS server of the present invention are synthesized by extracting the text of the part where the mouse pointer is located and synthesizing the voice data when the mouse pointer is positioned on the web page. Audio data will be played in real time on a web browser.

本発明の単純な変形ないし変更は、この分野の通常の知識を有する者により容易に実施でき、このような変形や変更はすべて本発明の領域に含まれる。   Simple variations or modifications of the present invention can be easily carried out by those having ordinary knowledge in the field, and all such variations and modifications are included in the scope of the present invention.

10…ウェブブラウザー、20…ウェブページ、30…ウェブリーダーWASクライアント、40…ウェブリーダーWAS、50…TTSサーバー、60…TTSエンジン、70…音声データベース。   DESCRIPTION OF SYMBOLS 10 ... Web browser, 20 ... Web page, 30 ... Web reader WAS client, 40 ... Web reader WAS, 50 ... TTS server, 60 ... TTS engine, 70 ... Voice database.

Claims (4)

ウェブページでマウスポインターが位置する部分のテキストを抽出し、音声データをウェブブラウザーで再生することができるようにウェブページを実時間で修正するウェブリーダーWASクライアント(30)と、
前記ウェブリーダーWASクライアントからテキスト情報を受信して、音声データを前記ウェブリーダーWASクライアントに伝送するウェブリーダーWAS(40)と、
前記ウェブリーダーWASからテキスト情報を受信して、TCP/IPを用いて前記ウェブリーダーWASに音声情報をサービスするTTSサーバー(50)と、
音声データを貯蔵して管理する音声データベース(70)と、
前記ウェブリーダーWASクライアントで抽出したテキスト情報をTTSサーバーから受信し、前記音声データベースを用いて音声データを合成し、前記合成した音声データをTTSサーバーに再伝送するTTSエンジン(60)とを
含むTTSサーバーを用いたウェブリーダーシステム。
A web reader WAS client (30) that extracts the text of the portion of the web page where the mouse pointer is located and modifies the web page in real time so that the audio data can be played back by the web browser;
A web reader WAS (40) that receives text information from the web reader WAS client and transmits voice data to the web reader WAS client;
A TTS server (50) that receives text information from the web reader WAS and services voice information to the web reader WAS using TCP / IP;
An audio database (70) for storing and managing audio data;
A TTS including a TTS engine (60) that receives text information extracted by the web reader WAS client from a TTS server, synthesizes voice data using the voice database, and retransmits the synthesized voice data to the TTS server. Web reader system using a server.
前記ウェブリーダーWASクライアントは、テキストを抽出して、ウェブページを実時間で修正することにジャバスクリプトを用いることを特徴とする、請求項1に記載のTTSサーバーを用いたウェブリーダーシステム。   The web reader system using a TTS server according to claim 1, wherein the web reader WAS client uses Javascript to extract text and modify a web page in real time. TTSウェブリーダークライアントを用いてマウスポインターが位置する部分のテキストを抽出する段階と、
前記抽出したテキストをTTSエンジンに伝送する段階と、
前記伝送されたテキストに基づいて音声を合成する段階と、
前記合成された音声データをTTSウェブリーダークライアントに伝送する段階と、
前記伝送された音声データに基づいてウェブブラウザーで音声を再生することができるようにウェブページを修正する段階と、
音声を再生する段階とを
含むTTSサーバーを用いたウェブリーダーシステムを駆動する方法。
Extracting the text of the part where the mouse pointer is located using a TTS web reader client;
Transmitting the extracted text to a TTS engine;
Synthesizing speech based on the transmitted text;
Transmitting the synthesized voice data to a TTS web reader client;
Modifying the web page so that the web browser can play audio based on the transmitted audio data;
A method of driving a web reader system using a TTS server, including the step of playing audio.
前記マウスポインターが位置する部分のテキストを抽出して、ウェブブラウザーで音声を再生することができるようにウェブページを修正することにジャバスクリプトを用いることを特徴とする、請求項3に記載のTTSサーバーを用いたウェブリーダーシステムを駆動する方法。   The TTS according to claim 3, wherein a JavaScript is used to extract a text of a portion where the mouse pointer is located and to modify a web page so that a voice can be reproduced by a web browser. A method of driving a web reader system using a server.
JP2010103816A 2009-06-05 2010-04-28 Web reader system using tts server and method thereof Pending JP2010282612A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090049938A KR101040585B1 (en) 2009-06-05 2009-06-05 Web Reader System Using TTS Server and the Method Thereof

Publications (1)

Publication Number Publication Date
JP2010282612A true JP2010282612A (en) 2010-12-16

Family

ID=43507267

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010103816A Pending JP2010282612A (en) 2009-06-05 2010-04-28 Web reader system using tts server and method thereof

Country Status (2)

Country Link
JP (1) JP2010282612A (en)
KR (1) KR101040585B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199724A (en) * 2019-12-31 2020-05-26 出门问问信息科技有限公司 Information processing method and device and computer readable storage medium

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101406983B1 (en) * 2013-09-10 2014-06-13 김길원 System, server and user terminal for text to speech using text recognition
KR20210121812A (en) 2020-03-31 2021-10-08 (주)에듀윌 Text editor program, and method for providing learning service using the text editor program and personalized text to speech server
KR20230166189A (en) 2022-05-30 2023-12-07 이어가다 주식회사 Electronic appparatus for recommending voice preferred by user based on feature vector of speaker, and control method thereof

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366853A (en) * 2001-03-01 2002-12-20 Akiyasu Cho Method and system for providing voice information through communication network and method for voice operation at site virtually built through communication network
JP2008096489A (en) * 2006-10-06 2008-04-24 Pentax Corp Voice generating system, voice generating method, voice generating server and voice generating program
JP2009075625A (en) * 2007-07-20 2009-04-09 Hidemi Yamamoto Information processing system and program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100923942B1 (en) * 2007-12-04 2009-10-29 엔에이치엔(주) Method, system and computer-readable recording medium for extracting text from web page, converting same text into audio data file, and providing resultant audio data file

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366853A (en) * 2001-03-01 2002-12-20 Akiyasu Cho Method and system for providing voice information through communication network and method for voice operation at site virtually built through communication network
JP2008096489A (en) * 2006-10-06 2008-04-24 Pentax Corp Voice generating system, voice generating method, voice generating server and voice generating program
JP2009075625A (en) * 2007-07-20 2009-04-09 Hidemi Yamamoto Information processing system and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199724A (en) * 2019-12-31 2020-05-26 出门问问信息科技有限公司 Information processing method and device and computer readable storage medium

Also Published As

Publication number Publication date
KR20100131172A (en) 2010-12-15
KR101040585B1 (en) 2011-06-10

Similar Documents

Publication Publication Date Title
US9177551B2 (en) System and method of providing speech processing in user interface
CN108615527B (en) Data processing method, device and storage medium based on simultaneous interpretation
TWI249729B (en) Voice browser dialog enabler for a communication system
RU2010132237A (en) METHOD AND DEVICE FOR IMPLEMENTATION OF DISTRIBUTED MULTIMODAL APPLICATIONS
JP5542156B2 (en) Recognizer markup language-based selection and use for speech processing
US8032378B2 (en) Content and advertising service using one server for the content, sending it to another for advertisement and text-to-speech synthesis before presenting to user
US20090055186A1 (en) Method to voice id tag content to ease reading for visually impaired
TW200809769A (en) Sharing voice application processing via markup
CN103514882B (en) A kind of audio recognition method and system
CA2440291A1 (en) Method and apparatus for annotating a document with audio comments
CN1286304C (en) Method of realizing scene chat between customers in instant communication
JP5441455B2 (en) Network-based service provision system
CN1984201A (en) Voice services system and method
US8095673B2 (en) Generic format for efficient transfer of data
JP2009009309A (en) Server system, and its operation control method and its control program
JP2010282612A (en) Web reader system using tts server and method thereof
US20230169990A1 (en) Emotionally-aware voice response generation method and apparatus
Di Fabbrizio et al. A speech mashup framework for multimodal mobile services
EP1052828A3 (en) System and method for providing multimedia information over a network
JP2006293455A (en) Invalid data confirmation system
GB2330429A (en) Data stream enhancement
TW201042469A (en) Communication server and method of processing messages utilizing the server
SE0201898D0 (en) A method and an apparatus for styling a web service
JP2005151553A (en) Voice portal
KR102470697B1 (en) System to provide a service for reciting poetry based on artificial intelligence

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120814

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130129