JP2009086597A - Text-to-speech conversion service system and method - Google Patents

Text-to-speech conversion service system and method Download PDF

Info

Publication number
JP2009086597A
JP2009086597A JP2007259847A JP2007259847A JP2009086597A JP 2009086597 A JP2009086597 A JP 2009086597A JP 2007259847 A JP2007259847 A JP 2007259847A JP 2007259847 A JP2007259847 A JP 2007259847A JP 2009086597 A JP2009086597 A JP 2009086597A
Authority
JP
Japan
Prior art keywords
data
text
text data
voice
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007259847A
Other languages
Japanese (ja)
Inventor
Shiyunsuke Akifuji
俊介 秋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2007259847A priority Critical patent/JP2009086597A/en
Publication of JP2009086597A publication Critical patent/JP2009086597A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To solve the problem wherein listeners will hear inappropriate terms uttered if parts of text are converted to create audio data and a playback order of the audio data is created to match utterances of inappropriate terms. <P>SOLUTION: When text data is converted into audio data, text data indicating the reading of the audio data is also generated. If a change in the playback order of text data indicating the reading of audio data corresponding to a plurality of partial text data makes the changed text data indicating reading match a preset reading-prohibited term, the audio data corresponding to the partial text data are replaced with predetermined audio data. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、ブログサイト(blog(Weblog)をWebサーバで公開および運用することを代行するサイト)やSNSサイト(Social Networking Service:コミュニティ型のWebサイト)において、ユーザからのテキストデータからなる文章をネットワーク経由で入力し、音声データに変換して公開し、他のユーザが閲覧した際に文章を音声で出力するテキスト音声変換サービスシステムに関するものである。   In the present invention, a blog site (a site that acts as a proxy for publishing and operating a blog (Weblog) on a Web server) or an SNS site (Social Networking Service: a community-type Web site) The present invention relates to a text-to-speech conversion service system that inputs via a network, converts it into voice data, publishes it, and outputs a sentence by voice when viewed by another user.

人間の声を蓄積、解析し、特徴を表す特徴データを抽出し、その特徴データを用いて、任意のテキストデータを音声データに変換し、あたかも人間のように自然なアクセントで発声する音声合成装置が出現してきた。これらの音声合成装置として、例えば、Hideyuki Mizuno、他著、Text−to−Speech Synthesis Technology Using Corpus−Based Approach、NTT Technical Review、Vol.2、No.3、pp.70−75、March 2004(非特許文献1)がある。   A speech synthesizer that accumulates and analyzes human voices, extracts feature data representing features, converts any text data into speech data using the feature data, and utters it with natural accents like a human Has emerged. As these speech synthesizers, for example, Hideyuki Mizuno, et al., Text-to-Speech Synthesis Technology Corpus-Based Approach, NTT Technical Review, Vol. 2, no. 3, pp. 70-75, March 2004 (Non-Patent Document 1).

このような音声合成装置を用いると、視聴者の聞く環境によっては、特徴データの元となった声を提供した者(以下、元話者)が実際に話しているのと同じように聞こえる可能性がある。元話者は、俳優、またはアニメーションの登場人物(キャラクタと呼ぶ)の声を吹き替える声優の場合もある。公衆の面前で、このような音声合成装置を用いると、これらの俳優、キャラクタが発話することのありえない乱暴な言い回しなどの不適切な言葉を発話させることが可能である。この場合、音声データに変換された内容によっては、これらの俳優や声優のイメージを傷つける可能性がある。   Using such a speech synthesizer, depending on the listening environment of the viewer, it may sound as if the person who provided the voice from which the feature data was based (hereinafter referred to as the former speaker) is actually speaking There is sex. The former speaker may be an actor or a voice actor who dubbes the voice of an animated character (called a character). When such a speech synthesizer is used in front of the public, it is possible to utter inappropriate words such as rough words that cannot be spoken by these actors and characters. In this case, depending on the contents converted into audio data, the image of these actors and voice actors may be damaged.

この課題を解決するために、いくつかの技術が開発されてきた。   In order to solve this problem, several techniques have been developed.

例えば、特開平5−165486号公報(特許文献1)に記載の技術では、テキストデータでなる入力文章を音声信号に変換して発音出力するテキスト音声変換装置において、読み上げ禁止用語を格納する読み上げ禁止テーブルと、入力文章を単語単位で切り出し、読み上げ禁止テーブルを検索して入力文章に含まれている単語が読み上げ禁止用語か否かを判断する読み上げ禁止用語判断手段と、この読み上げ禁止用語判断手段の判断結果に基づいて、読み上げ禁止用語に該当する単語の発音を禁止する発音禁止手段とを設けている。   For example, in the technique described in Japanese Patent Application Laid-Open No. 5-165486 (Patent Document 1), in a text-to-speech conversion device that converts an input sentence composed of text data into a speech signal and outputs a pronunciation, prohibition of reading out a reading-prohibited term. A reading prohibition term determining means for extracting a table and an input sentence in units of words, searching a reading prohibition table to determine whether or not a word included in the input sentence is a reading prohibition term, and a reading prohibition term determination means Based on the determination result, pronunciation prohibiting means for prohibiting pronunciation of a word corresponding to the reading prohibition term is provided.

上記特許文献1の技術では、テキストデータでなる入力文章を音声信号に変換して発音出力するテキスト音声変換装置において、読み上げ禁止用語とこの読み上げ禁止用語を表現する置換表現との対を格納する読み上げ禁止テーブルと、入力文章を単語単位で切り出し、読み上げ禁止テーブルを検索して入力文章に含まれている単語が読み上げ禁止用語か否かを判断する読み上げ禁止用語判断手段と、この読み上げ禁止用語判断手段の判断結果に基づいて、読み上げ禁止用語を置換表現に変換して発音させる読み上げ禁止用語置換手段とを設けている。   In the technique disclosed in Patent Document 1, in a text-to-speech conversion device that converts an input sentence composed of text data into a speech signal and outputs a pronunciation, it reads out a pair of a reading-prohibited term and a replacement expression that expresses the reading-prohibited term. A prohibition table, input sentence is cut out in units of words, a reading prohibition table is searched to determine whether a word included in the input sentence is a read prohibition term, and this reading prohibition term determination means On the basis of the determination result, a reading prohibition term replacement means for converting a reading prohibition term into a replacement expression and generating a pronunciation is provided.

さらに、特開2004−271727号公報(特許文献2)に記載の技術では、発注者の指定した音声メッセージの発話内容と、ある特定の話者の音声特徴データとを用いて音声合成処理し、それによって得られた音声合成データを音声データとして提供する音声データ提供システムであって、発注者から音声データ作成を受注する受注側は、発注者の指定した音声メッセージの発話内容を受信するとともに、その音声メッセージを発話させる話者の選択情報を受信すると、受信した音声メッセージの発話内容に選択された話者の発話する内容として不適切な表現が含まれているか否かを判定し、不適切な表現が含まれていないと判定された場合に、その音声メッセージの発話内容と当該選択された話者の音声特徴データとを用いて音声合成処理し、その音声合成データを音声データとして提供するようにしていた。   Furthermore, in the technique described in Japanese Patent Application Laid-Open No. 2004-271727 (Patent Document 2), speech synthesis processing is performed using the utterance content of the voice message designated by the orderer and the voice feature data of a specific speaker, The voice data providing system that provides the voice synthesis data obtained as a voice data, and the order receiving side that receives an order for voice data creation from the orderer receives the utterance content of the voice message designated by the orderer, When the selection information of the speaker who utters the voice message is received, it is determined whether or not the utterance content of the received voice message contains an inappropriate expression as the utterance content of the selected speaker. If it is determined that the speech expression is not included, the speech synthesis process is performed using the utterance content of the voice message and the voice feature data of the selected speaker. And it had been the voice synthesis data to be provided as audio data.

Hideyuki Mizuno他著、Text−to−Speech Synthesis Technology Using Corpus−Based Approach、NTT Technical Review、Vol.2、No.3、pp.70−75、March 2004Hideyuki Mizuno et al., Text-to-Speech Technology Technology Using Corpus-Based Approach, NTT Technical Review, Vol. 2, no. 3, pp. 70-75, March 2004 特開平5−165486号公報JP-A-5-165486 特開2004−271727号公報JP 2004-271727 A

インターネットの普及に伴い、個人が情報を発信するWebページを設けることが多くなった。この代表的なものとしてブログがある。ブログとは、個人やグループが、日々起こったことや特定の話題について記述したWebページの集合である。多くのブログが、写真、音楽、動画のファイルを掲載しており、記述した人以外の者もWebブラウザを用いてアクセスすることで、掲載された文章を読んだり、写真や動画を見たり、音楽を聴くことができる。音声合成装置で作成した音声データをブログサイトなどで一般に公開することもできる。   With the spread of the Internet, it has become more common to provide Web pages for individuals to send information. A typical example is a blog. A blog is a set of web pages that describe what happened daily or a specific topic by an individual or group. Many blogs publish photos, music, and video files, and people other than those who have written can access them using a web browser, read the posted text, watch photos and videos, I can listen to music. The voice data created by the voice synthesizer can be made public on a blog site.

上述の技術では、音声データをブログサイトなどで一般に公開する際に、文章の一部分を変換した音声データを作成し、不適切な用語の発声と同じになるように音声データの再生順序を作成すれば、これを聞いた側では、不適切な用語を発声したように聞こえてしまい、元話者の俳優、声優のイメージを傷つけることになる可能性がある。   With the above-mentioned technology, when the voice data is made public on a blog site, etc., the voice data is created by converting a part of the sentence, and the playback order of the voice data is created so that it is the same as the utterance of inappropriate terms. For example, the person who hears this may sound as if he / she uttered an inappropriate term, which may damage the image of the actor and voice actor of the former speaker.

本発明のテキスト音声変換サービスシステム及び方法は次のような態様により、上記課題を解決する。接続する端末から受信したテキストデータから複数の部分テキストデータを抽出する。抽出した複数の部分テキストデータを音声データに変換し、この音声データの読みを表すテキストデータを生成する。複数の部分テキストデータに対応する音声データの読みを表すテキストデータを連続させたとき(音声データの再生順序を変更したとき)、連続させた読みを表すテキストデータが予め設定した読み上げ禁止用語に該当する場合に、部分テキストデータに対応する音声データを予め定めた音声データに置換する。   The text-to-speech conversion service system and method of the present invention solve the above-mentioned problems in the following manner. A plurality of partial text data is extracted from the text data received from the connected terminal. The extracted partial text data is converted into voice data, and text data representing the reading of the voice data is generated. When text data representing the reading of audio data corresponding to multiple partial text data is made continuous (when the playback order of the audio data is changed), the text data representing the continuous reading corresponds to a preset reading-prohibited term In this case, the voice data corresponding to the partial text data is replaced with predetermined voice data.

本発明は、態様はさらに、音声合成のための音声合成サイト、及び読み上げ禁止用語をチェックする内容審査サイトをそれぞれ独立したサイトとし、他のブログサイトと共用することにより、効率的になる。   The aspect of the present invention is further efficient by making each of the speech synthesis site for speech synthesis and the content examination site for checking the reading prohibition term independent sites and sharing them with other blog sites.

本発明は、音声データに対応する読みのテキストデータを用いることにより、部分テキストデータの音声合成に伴う、不適切な用語の発声を禁止することができる。   According to the present invention, by using the text data of the reading corresponding to the voice data, it is possible to prohibit the utterance of an inappropriate term accompanying the voice synthesis of the partial text data.

ブログサイトなどでテキストデータを音声データへ変換して再生する実施例を以下に説明する。   An embodiment in which text data is converted into audio data and reproduced at a blog site or the like will be described below.

図1から図9を用いて、実施例1を詳細に説明する。実施例1は、Webブラウザと音声再生機能とを備えるパーソナルコンピュータ、ブログサイト、及び音声合成サイトの3つの部分から構成される。   The first embodiment will be described in detail with reference to FIGS. The first embodiment is composed of three parts: a personal computer having a Web browser and a voice reproduction function, a blog site, and a voice synthesis site.

実施例1では、ユーザがパーソナルコンピュータからブログサイトにアクセスし、文章を投稿したときに、文章の一部を俳優やアニメーションのキャラクタの音声に近似した音声に置き換えることができる。そして他のユーザが他のパーソナルコンピュータからブログサイトにアクセスし、文章を閲覧する際に、文章の一部を俳優やアニメーションのキャラクタが話しているように再生できる。   In the first embodiment, when a user accesses a blog site from a personal computer and posts a sentence, a part of the sentence can be replaced with a voice approximate to the voice of an actor or animation character. When another user accesses the blog site from another personal computer and browses the text, a part of the text can be reproduced as if an actor or an animated character is speaking.

図1は、実施例1の構成図である。1と2は、オペレーティング・システムを搭載したパーソナルコンピュータ(PC)である。3と4は、人間が認知できるように文字や図形を表示するディスプレイ装置である。5と6は、ユーザが文字を入力するキーボードである。7と8は、それぞれ、ディスプレイ装置3と4に表示された図形や文字の場所を指し示すボタンつきのマウス(ポインティングデバイス)である。9と10は、パーソナルコンピュータで動作するプログラムであって、HTMLを用いて記述されたテキストデータをディスプレイ3と4に表示するWebブラウザ、11と12は、パーソナルコンピュータで動作するプログラムであって、WAVEフォーマットで記録された音声データを音声で再生する音声再生部、13と14は、それぞれ音声再生部11と12の出力を人間が認知できる音声に変換するスピーカである。   FIG. 1 is a configuration diagram of the first embodiment. Reference numerals 1 and 2 denote personal computers (PCs) equipped with an operating system. Reference numerals 3 and 4 denote display devices that display characters and figures so that humans can recognize them. Reference numerals 5 and 6 are keyboards for the user to input characters. Reference numerals 7 and 8 denote mouses (pointing devices) with buttons indicating the locations of figures and characters displayed on the display devices 3 and 4, respectively. 9 and 10 are programs that operate on a personal computer, Web browsers that display text data described using HTML on the displays 3 and 4, and 11 and 12 are programs that operate on a personal computer. Audio reproduction units 13 and 14 for reproducing audio data recorded in the WAVE format with audio are speakers that convert the outputs of the audio reproduction units 11 and 12 into audio that can be recognized by humans, respectively.

WAVEフォーマットは、音声ファイルの形式であり、音声信号をデジタルデータに変換したものを記録するための保存形式である。HTML(HyperText Markup Language)は、Web上の文章を記述するためのマークアップ言語である。   The WAVE format is an audio file format, and is a storage format for recording an audio signal converted into digital data. HTML (HyperText Markup Language) is a markup language for describing sentences on the Web.

ブログサイト20は、HTTP(Hyper Text Transfer Protocol)でPCと通信するWebサーバ22、HTMLで記述されたHTMLテキストデータを編集する編集部24、HTMLで記述されたHTMLテキストデータを格納するHTMLテキストデータベース26、音声データとテキストデータを格納する音声デキストデータベース28、変換要求部30、読み上げ禁止用語データベース32、および内容審査部34を有する。変換要求部30は、HTMLテキストデータベース26に格納されたテキストデータの一部分を音声に変換することを要求し、変換した音声データと読み上げテキストデータを音声テキストデータベース28に格納するように指示を出し、HTMLテキストデータベース26に格納されたテキストデータの一部を置換する。読み上げ禁止用語データベース32は、音声での読み上げに適していない読み上げ禁止用語を格納する読み上げ禁止用語データベースである。内容審査部34は、HTMLテキストデータベース26、音声テキストデータベース28、及び読み上げ禁止用語データベース32とを参照し、読み上げる用語が読み上げ禁止用語である場合、読み上げる用語に対応する音声データを変更する。   The blog site 20 includes a Web server 22 that communicates with a PC using HTTP (Hyper Text Transfer Protocol), an editing unit 24 that edits HTML text data described in HTML, and an HTML text database that stores HTML text data described in HTML. 26, an audio text database 28 for storing audio data and text data, a conversion requesting unit 30, a reading-inhibited term database 32, and a content examination unit 34. The conversion requesting unit 30 requests to convert a part of the text data stored in the HTML text database 26 into speech, issues an instruction to store the converted speech data and the read-out text data in the speech text database 28, A part of the text data stored in the HTML text database 26 is replaced. The reading-prohibited term database 32 is a reading-prohibited term database that stores reading-prohibited terms that are not suitable for voice reading. The content examination unit 34 refers to the HTML text database 26, the speech text database 28, and the reading-prohibited term database 32, and when the term to be read is a reading-prohibited term, changes the speech data corresponding to the term to be read.

ブログサイト20は、ブログの提供を代行するインターネット上のWebサイトであり、サーバなどのコンピュータとWebサイト用のソフトウェアから構成される。Webサイトに一意に対応するURI(Uniform Resource Identifier)をPC1のWebブラウザ9で入力することで、Webサイトであるブログサイト20にアクセスし、ブログのWebページを閲覧できる。ブログサイト20には、ユーザを認証するログイン機能やWebページを検索する検索機能などがある。   The blog site 20 is a website on the Internet that acts as a blog provider, and includes a computer such as a server and software for the website. By inputting a URI (Uniform Resource Identifier) uniquely corresponding to the Web site with the Web browser 9 of the PC 1, the user can access the blog site 20 as the Web site and browse the blog Web page. The blog site 20 has a login function for authenticating a user and a search function for searching a Web page.

編集部24、変換要求部30、および内容審査部34は、ブログサイト20で動作するプログラムであり、HTMLテキストデータベース26、音声デキストデータベース28、及び読み上げ禁止用語データベース32は、ブログサイト20で用いられるデータベースである。これらは、ブログサイト20を構成するハードウエア(コンピュータ)、そのオペレーティング・システム、及びそれらが提供するファイルシステムなどで実現する。   The editing unit 24, the conversion requesting unit 30, and the content examination unit 34 are programs that operate on the blog site 20, and the HTML text database 26, the voice dext database 28, and the reading-prohibited term database 32 are used on the blog site 20. It is a database. These are realized by hardware (computer) constituting the blog site 20, an operating system thereof, a file system provided by them, and the like.

音声合成サイト40は、ブログサイト20からURIとテキストデータとを受信する受信部42、漢字かな混じりのテキストデータを入力し、WAVEなどの音声ファイルの形式の音声データと、ローマ字などで記述した発声を表現する読みのテキストとを出力する音声合成部44、ブログサイト20へ、指定されたURIを用いてデータを送信する送信部46である。漢字かな混じりのテキストデータを音声データに変換する音声合成機能を実装するため技術については、非特許文献1に詳細に記載されている。   The speech synthesis site 40 receives a URI 42 and text data from the blog site 20, inputs text data mixed with kanji and kana, and speaks speech data in the form of speech files such as WAVE and utterances written in Roman characters, etc. Are a speech synthesizer 44 that outputs a reading text that expresses the data, and a transmitter 46 that transmits data to the blog site 20 using a designated URI. A technique for implementing a speech synthesis function for converting text data mixed with kanji and kana into speech data is described in detail in Non-Patent Document 1.

本実施例では、「aho」と「baka」は不適切な用語の発声であり、これを聞いた側では不適切な用語が発声されたように聞こえる。   In this embodiment, “aho” and “baka” are utterances of inappropriate terms, and the person who hears them sounds as if an inappropriate term was uttered.

以下、図2と図3を用いて、パーソナルコンピュータ1でのエンドユーザの操作に伴うブログサイト20の編集部24の動作を説明する。   Hereinafter, the operation of the editing unit 24 of the blog site 20 in accordance with an end user operation on the personal computer 1 will be described with reference to FIGS. 2 and 3.

図2は、エンドユーザがブログに文章を書き込む際にパーソナルコンピュータ1のディスプレイ装置3に表示される入力画面200の例である。   FIG. 2 is an example of an input screen 200 displayed on the display device 3 of the personal computer 1 when the end user writes a sentence on the blog.

文章を入力する入力画面200は、文章のタイトルを入力するタイトル入力部分202、文章の本文を入力する本文入力部分204、変換した音声を読み上げる俳優やアニメーションのキャラクタと絵文字の対応を表示する音声−絵文字対応表示部分206、タイトル入力部分202と本文入力部分204に書き込まれた文章をブログサイト20のHTMLテキストデータベース26に格納せずに終了することを指示する「取り消すボタン」208、タイトル入力部分202と本文入力部分204に書き込まれた文章をブログサイト20のHTMLテキストデータベース26に格納することを指示する「書き込むボタン」210などを表示する。   The input screen 200 for inputting a sentence includes a title input part 202 for inputting a title of the sentence, a body input part 204 for inputting the text of the sentence, and an audio for displaying the correspondence between the actor or animation character that reads the converted voice and the pictogram. “Cancel button” 208 for instructing to end the text written in the pictogram corresponding display portion 206, the title input portion 202 and the text input portion 204 without storing them in the HTML text database 26 of the blog site 20, the title input portion 202 And a “write button” 210 for instructing to store the text written in the text input portion 204 in the HTML text database 26 of the blog site 20.

音声−絵文字対応表示部分206は、本文入力部分204で、絵文字である星印で囲まれたテキストを俳優1の音声に変換し、絵文字である三角印で囲まれたテキストを俳優2の音声に変換することを表示している。この例では、2種類の音声を選択できるようにしているが、2種類以上あっても良い。音声−絵文字対応表示部分206の表示は、ユーザごとに異なっていても良く、例えば絵文字である四角が俳優1としても良い。   The voice-pictogram correspondence display portion 206 converts the text surrounded by the star, which is a pictogram, into the voice of the actor 1 in the body input portion 204, and converts the text enclosed by the triangular mark, which is a pictogram, into the voice of the actor 2. It is displayed to convert. In this example, two types of sound can be selected, but two or more types may be selected. The display of the voice-pictogram correspondence display portion 206 may be different for each user. For example, a square as a pictogram may be the actor 1.

図3は、編集部24の処理フローチャートである。いま、パーソナルコンピュータ1のWebブラウザ9がブログサイト20にアクセスし、Webサーバ22を通じて、編集部24が処理を開始したとする。   FIG. 3 is a process flowchart of the editing unit 24. Now, assume that the Web browser 9 of the personal computer 1 accesses the blog site 20 and the editing unit 24 starts processing through the Web server 22.

編集部24は、処理を開始し(ステップ300)、図2のタイトル入力部分202及び本文入力部分204が空白の画面を作成し(ステップ302)、それらを表示する命令をWebサーバ22を通じてパーソナルコンピュータ1のWebブラウザ9に送信すると、Webブラウザ9はディスプレイ3に表示し(ステップ304)、ユーザからの入力を待つ(ステップ306)。   The editing unit 24 starts the process (step 300), creates a screen in which the title input part 202 and the text input part 204 in FIG. 2 are blank (step 302), and issues a command for displaying them to the personal computer through the web server 22. When it is transmitted to the first Web browser 9, the Web browser 9 displays it on the display 3 (step 304) and waits for an input from the user (step 306).

テキストの入力があったならば、編集部24は入力されたテキストを表示する命令を、Webサーバ22を通じてパーソナルコンピュータ1のWebブラウザ9に送信し、Webブラウザ9はディスプレイ装置3に表示する。ステップ304と306とを繰り返すことによって、テキストを入力し、それを表示する。ステップ306でテキスト入力ではなく、「取り消すボタン」208、又は「書き込むボタン」210が選択(入力)されたときは、その選択されたボタンによって分岐する(ステップ308)。「取り消すボタン」208が選択されたときは、タイトル入力部分202及び本文入力部分204を空白に変更し(ステップ310)、処理を終了する(ステップ314)。「書き込むボタン」210が選択されたときは、タイトル入力部分202、本文入力部分204にある内容を、適当なユニークなURIでHTMLテキストデータベース26へ格納し(ステップ312)、処理を終了する(ステップ314)。   If there is an input of text, the editing unit 24 transmits an instruction to display the input text to the Web browser 9 of the personal computer 1 through the Web server 22, and the Web browser 9 displays it on the display device 3. By repeating steps 304 and 306, the text is entered and displayed. When the “cancel button” 208 or “write button” 210 is selected (input) instead of text input in step 306, the process branches depending on the selected button (step 308). When the “cancel button” 208 is selected, the title input part 202 and the text input part 204 are changed to blanks (step 310), and the process ends (step 314). When the “write button” 210 is selected, the contents in the title input part 202 and the text input part 204 are stored in the HTML text database 26 with an appropriate unique URI (step 312), and the process is terminated (step 312). 314).

ここでは、ユーザは、キーボード5とマウス7を用いて、Webブラウザ9から図2に示すように、タイトル入力部分200に「近所の公園」、本文入力部分204に「面白い場所だった。また、いこうかな。」と入力したとする(ステップ300から304)。   Here, the user uses the keyboard 5 and the mouse 7 from the Web browser 9 as shown in FIG. 2, the title input portion 200 is “Neighborhood Park”, and the text input portion 204 is “an interesting place. Is entered "(steps 300 to 304).

次に、その後、ユーザは、「場」と「か」を音声データに変換するために、それぞれ、「場」と「か」の直前と直後に、それぞれ、絵文字である星印を挿入したとする。図2の例では、「場」と「か」を俳優1の合成音声に変換することを指示した画面を示している。   Next, after that, in order to convert “place” and “ka” into audio data, the user inserts an asterisk as a pictograph immediately before and after “place” and “ka”, respectively. To do. In the example of FIG. 2, a screen instructing to convert “place” and “ka” into the synthesized voice of actor 1 is shown.

ユーザは、この文章を格納したくないときは、取り消すボタン208を押す。入力したデータは、ステップ310で、消去され、パーソナルコンピュータ1のWebブラウザ9では、図2で、タイトル入力部分202、本文入力部分204を空白に変更し、ディスプレイ装置3に表示し、処理を終了する(ステップ308から314)。   When the user does not want to store this sentence, the user presses the cancel button 208. The input data is erased in step 310, and the web browser 9 of the personal computer 1 changes the title input part 202 and the text input part 204 to blanks in FIG. 2, displays them on the display device 3, and ends the processing. (Steps 308 to 314).

ここでは、ユーザは、書き込むボタン210をマウス7で選択し、タイトル入力部分202と本文入力部分204に書き込まれた文章をブログサイト20のHTMLテキストデータベース26へ適当なURIをつけて、ファイルとして格納したとする(ステップ310から314)。ここでは、付けられたURIは、「http:://blog1.com/u1/10/honbun.html」とする。   Here, the user selects the write button 210 with the mouse 7 and stores the texts written in the title input part 202 and the text input part 204 in the HTML text database 26 of the blog site 20 with appropriate URIs stored as files. (Steps 310 to 314). Here, the attached URI is “http://blog1.com/u1/10/honbun.html”.

このときにHTMLテキストデータベース26に格納されたHTML文章を図4に示す。図4は、ひとつのファイルであるHTML文章400を示す。図4の左端の番号4010から4090は、本実施例を説明するために付加した行番号であり、本来のHTML文章には含まれない。   FIG. 4 shows an HTML sentence stored in the HTML text database 26 at this time. FIG. 4 shows an HTML sentence 400 that is one file. The numbers 4010 to 4090 at the left end of FIG. 4 are line numbers added for explaining this embodiment, and are not included in the original HTML text.

変換要求部30は、定期的にHTMLテキストデータベース26を参照し、新たに格納されたファイルであるHTML文章を検出し、星印や三角印などの絵文字で囲まれたテキストデータの部分を抽出し、抽出されたテキストデータ毎に、ユニークなURIを生成し、それらのテキストデータと生成したURIを音声合成サイト40へ送信し、URIに対応するファイル名の音声データと、そのURIの最後尾の拡張子「.wav」を「.txt」で置換した、音声データの読みのテキストデータを得る。   The conversion request unit 30 periodically refers to the HTML text database 26 to detect HTML text that is a newly stored file, and extracts a text data portion surrounded by pictograms such as stars and triangles. For each extracted text data, a unique URI is generated, the text data and the generated URI are transmitted to the speech synthesis site 40, the voice data of the file name corresponding to the URI, and the last of the URI The text data of the voice data reading obtained by replacing the extension “.wav” with “.txt” is obtained.

ここでは、音声合成サイト40に送信されたデータのひとつは、テキストデータが「場」であり、それに対応して生成されたURIは、
「http://blog1.com/u1/10/01.wav」
であり、他のひとつは、テキストデータが、「か」であり、それに対応して生成されたURIは、
「http://blog1.com/u1/10/02.wav」
であるとする。
Here, one of the data transmitted to the speech synthesis site 40 is text data “place”, and the URI generated corresponding to the data is “
“Http://blog1.com/u1/10/01.wav”
The other one is that the text data is “ka”, and the corresponding URI generated is
“Http://blog1.com/u1/10/02.wav”
Suppose that

ここでは、生成されるURIは、HTMLテキストデータベース26に格納されたHTML文章のパス名にユニークな数字を追加したものとしているが、HTML文章のパス名とは関係のないものでも良い。   Here, the generated URI is obtained by adding a unique number to the path name of the HTML text stored in the HTML text database 26, but may be unrelated to the path name of the HTML text.

上記のデータを受信した音声合成サイト40の受信部42は、テキストデータを音声合成部44へ、URIを送信部46へそれぞれ出力する。音声合成部44は、テキストデータを音声データに変換し、音声データの発声音を表現する読みのテキストデータと音声データを出力する。   The reception unit 42 of the speech synthesis site 40 that has received the above data outputs the text data to the speech synthesis unit 44 and the URI to the transmission unit 46. The speech synthesizer 44 converts the text data into speech data, and outputs reading text data and speech data that express the utterance of the speech data.

送信部46は、音声合成部44から音声データと読みのテキストデータを得、受信部42からURIとを得て、URIに対応する音声データのファイルと、そのURIの最後尾の拡張子「.wav」を「.txt」で置換したURIに対応させた読みのテキストデータとをブログサイト20の変換要求部30へ戻す。ここで、読みのテキストデータは「場」を「ba」という発声音に変換し、「か」を「ka」という発声音に変換したとし、テキストデータは「ba」と「ka」となる。   The transmitter 46 obtains voice data and reading text data from the voice synthesizer 44, obtains a URI from the receiver 42, and obtains a voice data file corresponding to the URI and an extension “. The read text data corresponding to the URI in which “wav” is replaced with “.txt” is returned to the conversion request unit 30 of the blog site 20. Here, it is assumed that the text data of the reading is converted from “ba” to a utterance sound “ba” and “ka” is converted to a utterance sound “ka”, and the text data is “ba” and “ka”.

この段階では、「場」に対応する読みのテキストデータのURIは、
「http://blog1.com/u1/10/01.txt」
であり、このURIで指定されるファイルの内容は、文字として解釈して「ba」である。「か」に対応する読みのテキストデータのURIは、
「http://blog1.com/u1/10/02.txt」
であり、このURIで指定されるファイルの内容は、文字として解釈して「ka」である。
At this stage, the URI of the text data of the reading corresponding to “place” is
“Http://blog1.com/u1/10/01.txt”
The content of the file specified by this URI is “ba” when interpreted as characters. The URI of the text data of the reading corresponding to “ka” is
“Http://blog1.com/u1/10/02.txt”
The content of the file specified by this URI is “ka” when interpreted as characters.

これらのデータを受信した変換要求部30は、受信したデータを音声テキストデータベース28へ格納し、HTMLテキストデータベース26にアクセスし、音声データと、テキストデータを得たHTML文章の絵文字で囲まれた部分を、Webブラウザが再生できるようにURIを含む適当なタグで置換する。   Upon receiving these data, the conversion requesting unit 30 stores the received data in the speech text database 28, accesses the HTML text database 26, and is surrounded by speech data and pictorial characters of the HTML sentence from which the text data was obtained. Is replaced with an appropriate tag including a URI so that the Web browser can reproduce it.

図5は、置換した後のHTML文章500を表したものである。左端の番号5010から5090は、本実施例を説明するために付加した行番号であり、本来のHTML文章には含まれない。   FIG. 5 shows the HTML sentence 500 after replacement. The numbers 5010 to 5090 at the left end are line numbers added for explaining this embodiment, and are not included in the original HTML text.

読みのテキストデータを得たHTML文章の絵文字で囲まれた部分と音声データとを置換するので、星印で囲まれたテキストデータの部分を音声データのURIを含む適当なタグで置換する。ここでは、Webブラウザが、リンク先のURIの最後尾を拡張子と解釈して、その拡張子に対応するアプリケーション・プログラムを自動的に起動するとし、「<a」タグ、リンク先を示すURI、及び「</a」タグで置換する。   Since the portion of the HTML text obtained by reading the text data is replaced with the speech data, the portion of the text data surrounded by the star is replaced with an appropriate tag including the URI of the speech data. Here, it is assumed that the Web browser interprets the end of the URI of the link destination as an extension and automatically starts the application program corresponding to the extension, and the “<a” tag and the URI indicating the link destination , And “</ a” tags.

したがって、図4の4060行目の星で囲まれた部分「場」が、図5の5060行目から5066行目に示すように、「面白い
<a href=“http://blog1.com/u1/10/01.wav”>
場</a>
所だった。」
に置換される。また、図4の4070行目の星で囲まれた部分「か」が、図5の5070行目から5076行目に示すように、
「また、いこう
<a href=“http://blog1.com/u1/10/02.wav”>
か</a>
な。」
に置換される。以降は、図4に示すHTML文章に代わって、図5に示すHTML文章がHTMLテキストデータベース26に格納される。
Therefore, the portion “field” surrounded by the star on line 4060 in FIG. 4 is “interesting <a href =“ http: // blog1. com / u1 / 10/01. wav ">
</a>
It was a place. "
Is replaced by In addition, as shown in the lines 5070 to 5076 in FIG.
“Also, let ’s say <a href =“ http: // blog1. com / u1 / 10/02. wav ">
</a>
Yeah. "
Is replaced by Thereafter, the HTML text shown in FIG. 5 is stored in the HTML text database 26 instead of the HTML text shown in FIG.

図6は、音声テキストデータベース28に格納される音声データと読みのテキストデータの例を説明する図である。図6は、Wave形式の音声データ602と606、及び音声データの発声音を表現するテキストデータ604と608を示す。   FIG. 6 is a diagram for explaining an example of voice data and reading text data stored in the voice text database 28. FIG. 6 shows Wave data 602 and 606 in Wave format and text data 604 and 608 representing the utterance sound of the audio data.

内容審査部34は、HTMLテキストデータベース26にあるすべてのHTML文章と音声テキストデータベース28にある音声データとテキストデータを参照し、読み上げ禁止用語データベース32に格納した読み上げ禁止用語を用いて処理する。   The content examining unit 34 refers to all the HTML texts in the HTML text database 26, the speech data and text data in the speech text database 28, and processes them using the speech-prohibited terminology stored in the speech-prohibited term database 32.

以下、内容審査部34の処理を図5から図8を用いて詳細に説明する。図7は、内容審査部34の処理フローチャートである。図8は、読み上げ禁止用語データベース32に格納されている読み上げ禁止用語の例を示すものである。   Hereinafter, the processing of the content examining unit 34 will be described in detail with reference to FIGS. FIG. 7 is a process flowchart of the content examination unit 34. FIG. 8 shows examples of prohibited words to be read stored in the prohibited words database 32.

内容審査部34は、定期的にHTMLテキストデータベース26にあるHTML文章について、各々、図7のステップ700からステップ730の処理を行う。内容審査部34は、処理を開始する(ステップ700)と、URIのリストを記憶する変数である$Fと、文字列を記憶する変数である$Sを空にする(ステップ702)。次にHTMLテキストデータベース26のひとつのHTML文章、つまり、URIで指定されるひとつのファイルの先頭から1行を読み込み(ステップ704)、ファイルの終了(EOF)か否かを判定する(ステップ706)。終了であるときはステップ714へ進み、終了でないときはステップ708へ進み、パタンマッチを行い、音声データのURIで指定されたファイル(Waveファイル)を抽出し、ステップ710へ進む。   The content examination unit 34 periodically performs the processing from step 700 to step 730 in FIG. 7 for the HTML texts in the HTML text database 26. When the process is started (step 700), the content examining unit 34 empties $ F, which is a variable for storing a list of URIs, and $ S, which is a variable for storing a character string (step 702). Next, one HTML sentence in the HTML text database 26, that is, one line from the head of one file specified by the URI is read (step 704), and it is determined whether the end of file (EOF) or not (step 706). . If it is completed, the process proceeds to step 714, and if not completed, the process proceeds to step 708 to perform pattern matching, extract a file (Wave file) specified by the URI of the audio data, and proceed to step 710.

ステップ710で、パタンマッチが成功し、Wave形式のURIがあるときは、ステップ712へ進み、URIを$Fに追加し、そのURIの拡張子を「.wav」から「.txt」に置換したURIで指定されるファイルに格納されているテキストデータを$Sに追加し、ステップ704へ戻り、ステップ704から712を繰り返す。Wave形式のURIがないときは、ステップ704へ戻り、ステップ704から712を繰り返す。   If the pattern match is successful and there is a Wave format URI in step 710, the process proceeds to step 712, where the URI is added to $ F and the extension of the URI is replaced from “.wav” to “.txt”. The text data stored in the file specified by the URI is added to $ S, the process returns to step 704, and steps 704 to 712 are repeated. If there is no Wave format URI, the process returns to step 704 and steps 704 to 712 are repeated.

ここでは、内容審査部34は、図5のHTML文章について処理し、ステップ702から712の処理を繰り返したとする。すると、図5のHTML文章500の5062行目がステップ708でパタンマッチし、ステップ712で、「http://blog1.com/u1/10/01.wav」が、$Fに追加される。また、「.wav」から「.txt」に置換したURIは、「http://blog1.com/u1/10/01.txt」となり、それに格納されているテキストデータ、「ba」が$Sに追加される。   Here, it is assumed that the content examining unit 34 processes the HTML text of FIG. 5 and repeats the processing from steps 702 to 712. Then, line 5062 of the HTML sentence 500 in FIG. 5 is pattern-matched at step 708, and “http://blog1.com/u1/10/01.wav” is added to $ F at step 712. The URI replaced from “.wav” to “.txt” is “http://blog1.com/u1/10/01.txt”, and the text data “ba” stored therein is $ S. To be added.

ステップ704へ戻り、上述のステップ704からステップ712を繰り返し、再び、図5のHTML文章500の5072行目がステップ708でパタンマッチし、ステップ712で、「http://blog1.com/u1/10/02.wav」が、$Fに追加される。また、「.wav」から「.txt」に置換したURIは、「http://blog1.com/u1/10/02.txt」となり、それに格納されているテキストデータ、「ka」が$Sに追加される。   Returning to step 704, the above-mentioned steps 704 to 712 are repeated, and line 5072 of the HTML sentence 500 of FIG. 5 is again pattern-matched in step 708. In step 712, “http://blog1.com/u1/ 10 / 02.wav "is added to $ F. The URI replaced from “.wav” to “.txt” is “http://blog1.com/u1/10/02.txt”, and the text data stored in the URI “ka” is $ S. To be added.

したがって、$Fは、[http://blog1.com/u1/10/01.wav、http://blog1.com/u1/10/02.wav]となり、$Sは、[ba、ka]となる。   Therefore, $ F is [http: // blog1. com / u1 / 10/01. wav, http: // blog1. com / u1 / 10/02. wav] and $ S becomes [ba, ka].

ステップ714へ進み、$Sが空白のときは終了し(730)、空白でないときは、$Sと読み上げ禁止用語データベース28にある読み上げ禁止用語とのパタンマッチを行う(ステップ716)。次に、ステップ718へ進み、パタンマッチが成功した場合は、対応する音声データの内容を予め決めた音声データに置換し(ステップ720)、$Fと$Sを一要素分左へシフトする(ステップ722)。パタンマッチが成功しなかった場合は、ステップ722へ進む。ステップ722が終了した後は、ステップ714からステップ722を繰り返し、$Sが空白のときは終了する(ステップ730)。   Proceeding to step 714, if $ S is blank, the process ends (730), and if it is not blank, pattern matching is performed between $ S and the prohibited words to be read in the prohibited words database 28 (step 716). Next, the process proceeds to step 718. If the pattern match is successful, the corresponding audio data is replaced with predetermined audio data (step 720), and $ F and $ S are shifted to the left by one element (step 720). Step 722). If the pattern match is not successful, the process proceeds to step 722. After step 722 ends, step 714 to step 722 are repeated, and when $ S is blank, it ends (step 730).

ここでは、図8に示すように、禁止用語データベース28には、2つの読み上げ禁止用語802と804が格納され、内容は、それぞれ、「aho」と「baka」であったとする。ここでは、ステップ714で、$Sは[ba、ka]であり、空白で無いので、ステップ716へ進む。読み上げ禁止用語802は、「aho」であり、パタンマッチは成功しないが、読み上げ禁止用語804は、「baka」であり、パタンマッチは成功する。したがって、ステップ720で、対応する音声データの内容を予め決めた音声データに置換する。ここでは、音声データの置換は、$Fの先頭(左側)にあるURIで指定される音声データのファイルの内容を無音に置換するとする。   Here, as shown in FIG. 8, it is assumed that the prohibited term database 28 stores two reading-prohibited terms 802 and 804 and the contents are “aho” and “baka”, respectively. Here, in step 714, $ S is [ba, ka] and is not blank, so the process proceeds to step 716. The reading prohibition term 802 is “aho” and the pattern match does not succeed, but the reading prohibition term 804 is “baka” and the pattern match succeeds. Accordingly, in step 720, the content of the corresponding audio data is replaced with predetermined audio data. Here, it is assumed that the audio data is replaced with silence in the audio data file specified by the URI at the top (left side) of $ F.

この段階で、$Fは、[http://blog1.com/u1/10/01.wav、http:/blog1.com/u1/10/02.wav]であるので、図6の音声データ602である「http://blog1.com/u1/10/01.wav」の内容は、「ba」に対応する音ではなく、無音となる。   At this stage, $ F is [http: // blog1. com / u1 / 10/01. wav, http: // blog1. com / u1 / 10/02. wav], the content of “http://blog1.com/u1/10/01.wav”, which is the audio data 602 of FIG. 6, is not a sound corresponding to “ba” but is silent.

ステップ722で、$Fと$Sを一要素分左へシフトし、$Fは、[http://blog1.com/u1/10/02.wav]となり、$Sは、[ka]となる。ステップ714からステップ718でパタンマッチするものは無いので、ステップ722へ進み、$Fと$Sを一要素分左へシフトし、再度、ステップ714で、$Fと$Sは、両者とも空白になり、内容審査部34の処理を終了する(ステップ730)。   In step 722, $ F and $ S are shifted to the left by one element, and $ F is changed to [http: // blog1. com / u1 / 10/02. wav] and $ S becomes [ka]. Since there is no pattern match from step 714 to step 718, the process proceeds to step 722, $ F and $ S are shifted to the left by one element, and again in step 714, both $ F and $ S are left blank. Thus, the processing of the content examination unit 34 is terminated (step 730).

上記の状態でパーソナルコンピュータ2のWebブラウザ10が、ブログサイト20へアクセスし、Webサーバ20を経由して、HTMLテキストデータベース26にある、HTML文章(図5)を閲覧したとする。このとき、パーソナルコンピュータ2のディスプレイ4には、図9に示すように表示される。   Assume that the Web browser 10 of the personal computer 2 accesses the blog site 20 and browses the HTML text (FIG. 5) in the HTML text database 26 via the Web server 20 in the above state. At this time, it is displayed on the display 4 of the personal computer 2 as shown in FIG.

図9は、パーソナルコンピュータ2のディスプレイ4に表示される表示画面の例であり、900は、表示画面、902は、文章のタイトル、904は、文章の本文、906と908は、リンクの存在を示す下線である。Webブラウザでは、下線のあるテキストをマウスでクリックすると、<a>タグの内部にかかれたリンクの拡張子に対応するアプリケーション・プログラムが起動し、リンクで示すファイルを読み込み、再生し、スピーカ14から音声として出力する。   FIG. 9 is an example of a display screen displayed on the display 4 of the personal computer 2, 900 is a display screen, 902 is a sentence title, 904 is a sentence body, and 906 and 908 are links. This is an underline. In the Web browser, when the underlined text is clicked with the mouse, an application program corresponding to the extension of the link written in the <a> tag is started, and the file indicated by the link is read and played, and the speaker 14 Output as audio.

ここで、パーソナルコンピュータ2を操作しているユーザが、下線906、と908をマウスでこの順番に選択したとする。下線906と908に対応するリンクは、それぞれ図5の5062から5064行目と5072から5074行目であり、「http://blog1.com/u1/10/01.wav」と、「http://blog1.com/u1/10/02.wav」である。拡張子が「.wav」であるので、パーソナルコンピュータ2の音声再生部12は、「http://blog1.com/u1/10/01.wav」と「http://blog1.com/u1/10/02.wav」の再生を試みる。音声再生部12は、ブログサイト20のWebサーバ22経由で、音声テキストデータベース28へアクセスし、「http://blog1.com/u1/10/01.wav」と「http://blog1.com/u1/10/02.wav」に対応する音声ファイル602と606をパーソナルコンピュータ2にダウンロードし、再生する。   Here, it is assumed that the user operating the personal computer 2 selects the underlines 906 and 908 in this order with the mouse. The links corresponding to the underlines 906 and 908 are the lines 5062 to 5064 and lines 5072 to 5074 in FIG. 5, respectively, “http://blog1.com/u1/10/01.wav” and “http: //Blog1.com/u1/10/02.wav ". Since the extension is “.wav”, the audio playback unit 12 of the personal computer 2 uses “http://blog1.com/u1/10/01.wav” and “http://blog1.com/u1/”. "10 / 02.wav" is attempted to be played back. The voice reproduction unit 12 accesses the voice text database 28 via the Web server 22 of the blog site 20, and “http://blog1.com/u1/10/01.wav” and “http://blog1.com”. Audio files 602 and 606 corresponding to “/u1/10/02.wav” are downloaded to the personal computer 2 and played back.

ここでは、上述のように、「http://blog1.com/u1/10/01.wav」の内容は、無音となっているので、下線906をマウスで選択したときは、「ba」の音は再生されず、スピーカ14は、無音のままであり、下線908をマウスで選択したときだけ「ka」の音が再生されるので、スピーカ14から「baka」と聞こえることは無い。   Here, as described above, the content of “http://blog1.com/u1/10/01.wav” is silent, so when the underline 906 is selected with the mouse, the “ba” The sound is not reproduced, the speaker 14 remains silent, and the sound “ka” is reproduced only when the underline 908 is selected with the mouse, so that the speaker 14 does not hear “baka”.

本実施例では、ステップ720で、音声データの置換は、左にある単語に対応する方の音声データのファイルを無音にするとしたが、無音の代わりに、予め固定した音にしても良い。   In the present embodiment, in step 720, the voice data is replaced by silence in the voice data file corresponding to the word on the left. However, instead of silence, a sound fixed in advance may be used.

本実施例では、パーソナルコンピュータ1のユーザが、ステップ300から314の処理で、格納した合成音声の再生を含むWebページをそのまま、パーソナルコンピュータ2のユーザが閲覧する例を取り上げたが、パーソナルコンピュータ1のユーザが、一度格納したWebページを、再度編集し、再生される音声ファイルへのリンクの位置や順序を変更しても、内容審査部34は、定期的にステップ700から730の処理を行うので、不適切な発声を検出することができる。   In the present embodiment, an example has been described in which the user of the personal computer 1 browses the Web page including the reproduction of the stored synthesized speech as it is in the processing of steps 300 to 314, but the user of the personal computer 2 browses the web page as it is. Even if the user edits the Web page once stored and changes the position and order of links to the audio file to be played back, the content examining unit 34 periodically performs the processing of steps 700 to 730. Therefore, inappropriate utterances can be detected.

上述の実施例1で、音声合成サイト40で、受信部42が受信したテキストデータを、音声合成部44へ入力する前に、テキストデータで内容を審査し、不適切と判断した場合は、変更したテキストデータを音声合成部44へ送るテキストデータとしても良い。   In the first embodiment described above, before the text data received by the receiving unit 42 is input to the voice synthesizing unit 44 at the speech synthesizing site 40, the contents are examined with the text data, and if it is determined to be inappropriate, the change is made. The text data thus sent may be text data sent to the speech synthesizer 44.

本実施例では、音声テキストデータベース28に格納されたテキストデータ604と608は、変換要求部30と内容審査部34からだけアクセスされ、編集部24など、他のプログラムからアクセスされることが無いので、いったん音声ファイルを作成し、音声テキストデータベース28に格納した後に、音声テキストデータベース28のテキストデータだけを変更して、内容審査部34で適正と判定され、不適切な用語を発声するように変更することはできないという効果がある。   In this embodiment, the text data 604 and 608 stored in the speech text database 28 are accessed only from the conversion requesting unit 30 and the content examining unit 34, and are not accessed from other programs such as the editing unit 24. Once the voice file is created and stored in the voice text database 28, only the text data in the voice text database 28 is changed, and the content judging unit 34 determines that it is appropriate, and changes to utter an inappropriate term. It has the effect that it cannot be done.

本実施例では、日本語の場合を用いたが、他の言語、例えば英語や中国語なども、発声を表現するテキストデータを用いることができるので、同様に扱うことができる。   In this embodiment, the case of Japanese is used, but other languages such as English and Chinese can also be handled in the same manner because text data expressing utterances can be used.

実施例1では、変換したテキストデータを、そのまま、テキストデータとしてファイルに格納し、音声データとともにテキストデータをブログサイトへ送信したが、テキストデータとしてファイルに格納する代わりに、音声データにテキストデータを電子透かしで埋め込んで、電子透かし入りの音声データだけをブログサイトへ送信してもよい。   In the first embodiment, the converted text data is directly stored in a file as text data, and the text data is transmitted to the blog site together with the voice data. Instead of storing the text data in the file as text data, the text data is stored in the voice data. It may be embedded with a digital watermark and only the audio data with the digital watermark may be transmitted to the blog site.

以下、この場合を実施例2として、図2から図4、図8から図13を用いて説明する。図2から図4、図8から図9は、それぞれ実施例1と同じである。   Hereinafter, this case will be described as a second embodiment with reference to FIGS. 2 to 4 and FIGS. 8 to 13. 2 to 4 and FIGS. 8 to 9 are the same as those of the first embodiment.

この実施例2は、Webブラウザと音声再生機能を備えるパーソナルコンピュータ、実施例1とは異なる構成のブログサイトA、及び実施例1とは異なる構成の音声合成サイトAの3つの部分から構成される。実施例2の構成を図10に示す。図10において、図1と同じものには同じ符号を付している。   The second embodiment is composed of three parts: a personal computer having a web browser and a voice reproduction function, a blog site A having a configuration different from that of the first embodiment, and a speech synthesis site A having a configuration different from that of the first embodiment. . The configuration of Example 2 is shown in FIG. 10, the same components as those in FIG. 1 are denoted by the same reference numerals.

ブログサイトA1000における、実施例1との主な違いは、音声データベース1002、変換要求部A1004、電子透かし検出部1006及び内容審査部A1008にある。音声データベース1002は、電子透かしが挿入された電子透かし入り音声データを格納する。変換要求部A1004は、HTMLテキストデータベース26に格納されたテキストデータの一部分を電子透かし入り音声に変換することを要求し、変換した電子透かし入り音声データを音声データベース1002に格納するように指示を出し、HTMLテキストデータベース26に格納されたテキストデータの一部を置換する。電子透かし検出部1006は、音声データベース1002に格納された電子透かし入り音声データから電子透かしで挿入されたテキストデータを抽出する。内容審査部A1008は、HTMLテキストデータベース26と、読み上げ禁止用語データベース32と、電子透かし検出部1006から得たテキストデータとを参照し、読み上げ禁止用語か否かを判定し、読み上げ禁止用語と判定したときは、音声データベース1002に格納された対応する音声データを変更する。   The main differences between the blog site A1000 and the first embodiment are the voice database 1002, the conversion request unit A1004, the digital watermark detection unit 1006, and the content examination unit A1008. The voice database 1002 stores voice data with a digital watermark into which a digital watermark has been inserted. The conversion request unit A1004 requests to convert a part of the text data stored in the HTML text database 26 into digital watermarked voice, and issues an instruction to store the converted digital watermarked voice data in the voice database 1002. , A part of the text data stored in the HTML text database 26 is replaced. The digital watermark detection unit 1006 extracts text data inserted by digital watermark from the voice data with digital watermark stored in the voice database 1002. The content examination unit A1008 refers to the HTML text database 26, the reading-prohibited term database 32, and the text data obtained from the digital watermark detection unit 1006, determines whether or not it is a reading-prohibited term, and determines that it is a reading-prohibited term. If so, the corresponding audio data stored in the audio database 1002 is changed.

音声データベース1002、変換要求部A1004、電子透かし検出部1006、内容審査部A1008は、ブログサイトA1000で動作するプログラムであり、ブログサイトA1000を構成するハードウエア(コンピュータ)、そのオペレーティング・システム、及びそれらが提供するファイルシステムなどで実現する。   The voice database 1002, the conversion request unit A1004, the digital watermark detection unit 1006, and the content examination unit A1008 are programs that operate on the blog site A1000. The hardware (computer) that configures the blog site A1000, its operating system, and the like This is realized by the file system provided by.

音声合成サイトA1010は、ブログサイトA1000からURIとテキストデータとを受信する受信部A1012、音声データにテキストデータの電子透かしを挿入する電子透かし挿入部1014、電子透かし入りの音声データをURIに対応するファイル名の音声データのファイルとして、ブログサイトA1000へ送信する送信部A1016である。   The speech synthesis site A1010 corresponds to the reception unit A1012 that receives the URI and text data from the blog site A1000, the digital watermark insertion unit 1014 that inserts the digital watermark of the text data into the voice data, and the voice data with the digital watermark corresponding to the URI. The transmission unit A1016 transmits the file name audio data file to the blog site A1000.

本実施例でも、「aho」と「baka」は、不適切な用語の発声であり、これを聞いた側では、不適切な用語を発声したように聞こえる。   Also in the present embodiment, “aho” and “baka” are utterances of inappropriate terms, and the person who hears them sounds as if they have uttered inappropriate terms.

パーソナルコンピュータ1でのエンドユーザの操作の流れと、編集部24の処理の流れは、実施例1と同じである(図2と図3)。ここでは、エンドユーザは、書き込むボタン210をマウス7で操作し、タイトル入力部分202と本文入力部分204に書き込まれた文章をブログサイトA1000のHTMLテキストデータベース26へ適当なURIで、ファイルとして格納したとする(ステップ310から314)。   The operation flow of the end user on the personal computer 1 and the processing flow of the editing unit 24 are the same as those in the first embodiment (FIGS. 2 and 3). Here, the end user operates the write button 210 with the mouse 7, and stores the text written in the title input part 202 and the text input part 204 as a file in the HTML text database 26 of the blog site A1000 with an appropriate URI. (Steps 310 to 314).

ここでは、付けられたURIは、実施例1と同様に「http://blog1.com/u1/10/honbun.html」であり、HTMLテキストデータベース26に格納されたHTML文章は実施例1と同様に図4であったとする。   Here, the URI attached is “http://blog1.com/u1/10/honbun.html” as in the first embodiment, and the HTML text stored in the HTML text database 26 is the same as in the first embodiment. Similarly, assume that FIG.

変換要求部A1004は、定期的にHTMLテキストデータベース26を参照し、新たに格納されたファイルであるHTML文章を検出し、星印や三角印など絵文字で囲まれたテキストデータの部分を抽出し、抽出されたテキストデータ毎に、ユニークなURIを生成し、それらテキストデータとURIを音声合成サイトA1010へ送信し、URIに対応するファイル名の電子透かし入り音声データを得る。   The conversion request unit A1004 periodically refers to the HTML text database 26, detects HTML text that is a newly stored file, extracts a text data portion surrounded by pictograms such as stars and triangles, A unique URI is generated for each extracted text data, and the text data and the URI are transmitted to the speech synthesis site A 1010 to obtain digital watermarked speech data having a file name corresponding to the URI.

ここでは、音声合成サイトに出力されたデータのひとつは、テキストデータが「場」であり、URIが「http://blog1.com/u1/10/03.wav」であったとし、他のひとつは、テキストデータが「か」であり、URIが「http://blog1.com/u1/10/04.wav」であったとする。   Here, it is assumed that one of the data output to the speech synthesis site is that the text data is “place” and the URI is “http://blog1.com/u1/10/03.wav” One is that the text data is “ka” and the URI is “http://blog1.com/u1/10/04.wav”.

上記のデータを受信した音声合成サイトA1010の受信部A1012は、テキストデータを音声合成部44へ出力し、URIを送信部A1016へ出力する。音声合成部44は、テキストデータを音声データに変換し、音声データの発声音を表現するテキストデータと、音声データを電子透かし挿入部1014へ出力する。   Receiving unit A1012 of speech synthesis site A1010 that has received the above data outputs text data to speech synthesis unit 44 and outputs a URI to transmission unit A1016. The voice synthesizer 44 converts the text data into voice data, and outputs the text data expressing the voice of the voice data and the voice data to the digital watermark insertion unit 1014.

電子透かし挿入部1014は、音声合成部44から入力した音声データに、テキストデータを電子透かしとして挿入し、送信部A1016へ出力する。音声データへの電子透かしの挿入、電子透かしの検出、抽出については、特開2003−99077号公報に記載してある。   The digital watermark insertion unit 1014 inserts text data as a digital watermark into the voice data input from the voice synthesis unit 44 and outputs the text data to the transmission unit A1016. Japanese Patent Laid-Open No. 2003-99077 describes the insertion of digital watermarks into audio data and the detection and extraction of digital watermarks.

送信部A1016は、電子透かし挿入部1014から得た、電子透かし入り音声データを、受信部A1012から得たURIに対応するファイル名の音声データのファイルとしてブログサイトA1000の変換要求部A1004へ戻す。ここで、テキストデータは、「場」を「ba」という音に変換し、「か」を「ka」という音に変換したものとする。   The transmission unit A1016 returns the audio data with digital watermark obtained from the digital watermark insertion unit 1014 to the conversion request unit A1004 of the blog site A1000 as a file of audio data having a file name corresponding to the URI obtained from the reception unit A1012. Here, it is assumed that the text data is obtained by converting “place” into a sound “ba” and converting “ka” into a sound “ka”.

一方の「ba」が、電子透かしで挿入された電子透かし入りの音声データのファイルは、URIが「http://blog1.com/u1/10/03.wav」であり、他方の「ka」が、電子透かしで挿入された電子透かし入りの音声データのファイルは、URIが「http://blog1.com/u1/10/04.wav」である。   One “ba” is a watermarked audio data file inserted with a digital watermark. The URI is “http://blog1.com/u1/10/03.wav” and the other “ka” However, a file of audio data with a digital watermark inserted with a digital watermark has a URI “http://blog1.com/u1/10/04.wav”.

これらのデータを受信した変換要求部A1004は、受信したデータを音声データベース1002へ格納し、HTMLテキストデータベース26にアクセスし、音声データと、テキストデータを得たHTML文章の絵文字で囲まれた部分を、Webブラウザが再生できるようにURIを含む適当なタグで置換する。   Upon receiving these data, the conversion request unit A1004 stores the received data in the speech database 1002, accesses the HTML text database 26, and converts the speech data and the portion surrounded by pictographs of the HTML text from which the text data was obtained. Replace with an appropriate tag containing a URI so that the web browser can play it.

図11は、置換した後のHTML文章1100を表したものである。左端の番号11010から11090は、本実施例を説明するために付加した行番号であり、本来のHTML文章には、含まれない。   FIG. 11 shows the HTML sentence 1100 after replacement. The numbers 11010 to 11090 at the left end are line numbers added for explaining the present embodiment, and are not included in the original HTML text.

音声データと、テキストデータを得たHTML文章の絵文字で囲まれた部分を置換するので、ここでは、星印で囲まれたテキストデータの部分を音声データのURIを含む適当なタグで置換する。ここでは、Webブラウザが、リンク先のURIの最後尾を拡張子と解釈して、その拡張子に対応するアプリケーション・プログラムを自動的に起動するとし、「<a」タグ、リンク先を示すURI、「</a」タグで置換する。   Since the portion surrounded by the pictographs of the HTML text obtained from the voice data and the text data is replaced, the portion of the text data surrounded by the star is replaced with an appropriate tag including the URI of the voice data. Here, it is assumed that the Web browser interprets the end of the URI of the link destination as an extension and automatically starts the application program corresponding to the extension, and the “<a” tag and the URI indicating the link destination , Replace with “</ a” tag.

したがって、図4の4060行目の星印で囲まれた部分「場」が、図11の11060行目から11066行目に示すように、
「面白い
<a href=“http://blog1.com/u1/10/03.wav”>
場</a>
所だった。」
に置換される。図4の4070行目の星印で囲まれた部分「か」が、図11の11070行目から11076行目に示すように、
「また、いこう
<a href=“http://blog1.com/u1/10/04.wav”>
か</a>
な。」
に置換される。以降は、図4に示すHTML文章に代わって、図11に示すHTML文章がHTMLテキストデータベース26に格納される。図12は、音声データベース1002に格納される電子透かし入り音声データの例1202と1204とを示す。
Therefore, the portion “field” surrounded by the star on line 4060 in FIG. 4 is shown on lines 11060 to 11066 in FIG.
“Interesting <a href =“ http: // blog1. com / u1 / 10/03. wav ">
</a>
It was a place. "
Is replaced by As shown in the 11070th line to the 11076th line in FIG.
“Also, let ’s say <a href =“ http: // blog1. com / u1 / 10/04. wav ">
</a>
Yeah. "
Is replaced by Thereafter, the HTML text shown in FIG. 11 is stored in the HTML text database 26 instead of the HTML text shown in FIG. FIG. 12 shows examples 1202 and 1204 of voice data with digital watermarks stored in the voice database 1002.

内容審査部A1008は、HTMLテキストデータベース26にあるHTML文章と音声データベース1002にある電子透かし入り音声データとを参照し、読み上げ禁止用語データベース32に格納した読み上げ禁止用語を用いて処理する。   The content examination unit A 1008 refers to the HTML text in the HTML text database 26 and the digital watermarked voice data in the voice database 1002 and performs processing using the read-inhibited terminology stored in the read-in prohibition term database 32.

以下、内容審査部A1008の処理を図8、図11から図13を用いて詳細に説明する。図13は、内容審査部A1008の処理を示すフローチャートである。   Hereinafter, the processing of the content examination unit A1008 will be described in detail with reference to FIGS. 8 and 11 to 13. FIG. 13 is a flowchart showing the processing of the content examination unit A1008.

内容審査部A1008は、定期的にHTMLテキストデータベース26にあるファイルであるHTML文章の各々について、図13のステップ1300からステップ1330の処理を行う。   The content examination unit A1008 periodically performs the processing from step 1300 to step 1330 in FIG. 13 for each HTML sentence that is a file in the HTML text database 26.

内容審査部A1008は、処理を開始する(ステップ1300)と、URIのリストを記憶する変数である$Fと、文字列を記憶する変数である$Sを空にする(ステップ1302)。次にHTMLテキストデータベース26のひとつのHTML文章、つまりURIで指定されるひとつのファイルの先頭から1行を読み込み(ステップ1304)、ファイルの終了(EOF)か否かを判定する(ステップ1306)。   When the content examination unit A1008 starts processing (step 1300), $ F which is a variable for storing a list of URIs and $ S which is a variable for storing character strings are emptied (step 1302). Next, one HTML sentence in the HTML text database 26, that is, one line from the head of one file specified by the URI is read (step 1304), and it is determined whether the end of file (EOF) or not (step 1306).

終了であるときは、ステップ1314へ進み、終了でないときは、ステップ1308へ進み、パタンマッチを行い、音声データのURIで指定されたファイルを抽出し、ステップ1310へ進む。   If it is finished, the process proceeds to step 1314. If it is not finished, the process proceeds to step 1308 to perform pattern matching, extract the file specified by the URI of the audio data, and proceed to step 1310.

ステップ1310で、パタンマッチが成功し、音声データのURIがあるときは、ステップ1311へ進み、パタンマッチしたURIで指定される音声データのファイルの音声データを電子透かし検出部1006へ出力し、電子透かしで挿入されているテキストデータを抽出し、ステップ1312へ進み、パタンマッチしたURIを$Fに追加し、テキストデータを$Sに追加し、ステップ1304へ戻り、ステップ1304から1312を繰り返す。音声データのURIがないときは、ステップ1304へ戻り、ステップ1304から1312を繰り返す。   If the pattern match succeeds and there is a URI of the voice data in step 1310, the process proceeds to step 1311, where the voice data of the voice data file specified by the pattern matched URI is output to the digital watermark detection unit 1006, The text data inserted by the watermark is extracted, and the process proceeds to step 1312. The pattern-matched URI is added to $ F, the text data is added to $ S, the process returns to step 1304, and steps 1304 to 1312 are repeated. If there is no audio data URI, the process returns to step 1304 and steps 1304 to 1312 are repeated.

ここでは、内容審査部A1008は、図11のHTML文章について処理し、ステップ1302から1312の処理を繰り返したとする。すると、図11のHTML文章1100の11062行目がステップ1308でパタンマッチし、ステップ1311で、「http://blog1.com/u1/10/03.wav」から電子透かしで挿入されているテキストデータ「ba」を抽出する。ステップ1312で「http://blog1.com/u1/10/03.wav」が、$Fに追加され、「ba」が$Sに追加される。   Here, it is assumed that the content examination unit A1008 processes the HTML text of FIG. 11 and repeats the processing of steps 1302 to 1312. Then, the 11062st line of the HTML sentence 1100 in FIG. 11 is pattern-matched in Step 1308, and in Step 1311, the text inserted from “http://blog1.com/u1/10/03.wav” with a digital watermark is inserted. Data “ba” is extracted. In step 1312, “http://blog1.com/u1/10/03.wav” is added to $ F, and “ba” is added to $ S.

ステップ1304へ戻り、上述のステップ1304からステップ1312を繰り返し、再び、図11のHTML文章1100の11072行目がステップ1308でパタンマッチし、ステップ1311で、「http://blog1.com/u1/10/04.wav」から電子透かしで挿入されているテキストデータ「ka」を抽出する。ステップ1312で「http://blog1.com/u1/10/04.wav」が、$Fに追加され、「ka」が$Sに追加される。   Returning to step 1304, the above steps 1304 to 1312 are repeated, and the 11072st line of the HTML sentence 1100 in FIG. 11 is again pattern matched in step 1308. In step 1311, “http://blog1.com/u1/ The text data “ka” inserted by the digital watermark is extracted from “10 / 04.wav”. In step 1312, “http://blog1.com/u1/10/04.wav” is added to $ F, and “ka” is added to $ S.

したがって、$Fは、[http://blog1.com/u1/10/03.wav、http://blog1.com/u1/10/04.wav]となり、$Sは、[ba、ka]となる。   Therefore, $ F is [http: // blog1. com / u1 / 10/03. wav, http: // blog1. com / u1 / 10/04. wav] and $ S becomes [ba, ka].

ステップ1314へ進み、$Sが空白のときは終了し(1330)、空白でないときは、$Sと読み上げ禁止用語データベース28にある読み上げ禁止用語とのパタンマッチを行う(ステップ1316)。次に、ステップ1318へ進み、パタンマッチが成功した場合は、対応する音声データの内容を予め決めた音声データに置換し(ステップ1320)、$Fと$Sを一要素分左へシフトする(ステップ1322)。パタンマッチが成功しなかった場合は、ステップ1322へ進む。ステップ1322が終了した後は、ステップ1314からステップ1322を繰り返し、$Sが空白のときは終了する(ステップ1330)。   Proceeding to step 1314, if $ S is blank, the process ends (1330). If $ S is not blank, pattern matching is performed between $ S and the prohibited words to be read in the prohibited words database 28 (step 1316). Next, the process proceeds to step 1318. If the pattern match is successful, the content of the corresponding audio data is replaced with predetermined audio data (step 1320), and $ F and $ S are shifted to the left by one element (step 1320). Step 1322). If the pattern match is not successful, the process proceeds to step 1322. After step 1322 is completed, steps 1314 to 1322 are repeated, and when $ S is blank, the process ends (step 1330).

ここでは、図8に示すように、禁止用語データベース28には、2つの読み上げ禁止用語802と804が格納され、内容は、それぞれ、「aho」と「baka」であったとする。ステップ1314で、$Sは[ba、ka]であり、空白で無いので、ステップ1316へ進む。読み上げ禁止用語802は「aho」であり、パタンマッチは成功しないが、読み上げ禁止用語804は「baka」であり、パタンマッチは成功する。従って、ステップ1320で、対応する音声データの内容を予め決めた音声データに置換する。ここでは、音声データの置換は、$Fの先頭(左側)にあるURIで指定される音声データのファイルの内容を無音に置換するとする。   Here, as shown in FIG. 8, it is assumed that the prohibited term database 28 stores two reading-prohibited terms 802 and 804 and the contents are “aho” and “baka”, respectively. In step 1314, $ S is [ba, ka] and is not blank, so the process proceeds to step 1316. The reading prohibition term 802 is “aho” and the pattern match does not succeed, but the reading prohibition term 804 is “baka” and the pattern match succeeds. Accordingly, in step 1320, the content of the corresponding audio data is replaced with predetermined audio data. Here, it is assumed that the audio data is replaced with silence in the audio data file specified by the URI at the top (left side) of $ F.

この段階で、$Fは、[http://blog1.com/u1/10/03.wav、http://blog1.com/u1/10/04.wav]であるので、図12の音声データ1202である「http://blog1.com/u1/10/03.wav」の内容は、「ba」に対応する音ではなく、無音となる。   At this stage, $ F is [http: // blog1. com / u1 / 10/03. wav, http: // blog1. com / u1 / 10/04. wav], the content of “http://blog1.com/u1/10/03.wav”, which is the audio data 1202 in FIG. 12, is not a sound corresponding to “ba” but a silence.

次に、ステップ1322で、$Fと$Sを一要素分左へシフトし、$Fは、[http://blog1.com/u1/10/04.wav]となり、$Sは、[ka]となる。ステップ1314からステップ1318でパタンマッチするものは無いので、ステップ1322へ進み、$Fと$Sを一要素分左へシフトし、再度、ステップ1314で、$Fと$Sは、両者とも空白になり、内容審査部A1008の処理を終了する(ステップ1330)。   Next, in step 1322, $ F and $ S are shifted to the left by one element, and $ F is changed to [http: // blog1. com / u1 / 10/04. wav] and $ S becomes [ka]. Since there is no pattern match from step 1314 to step 1318, the process proceeds to step 1322, where $ F and $ S are shifted to the left by one element, and again in step 1314, both $ F and $ S are left blank. Thus, the processing of the content examination unit A1008 is terminated (step 1330).

上記の状態でパーソナルコンピュータ2のユーザがWebブラウザ10を用いて、ブログサイト1000へアクセスし、Webサーバ22を経由して、HTMLテキストデータベース26にある、HTML文章(図11)を閲覧したとする。このとき、パーソナルコンピュータ2のディスプレイ4には、実施例1と同様に図9に示すように表示される。ここで、パーソナルコンピュータ2を操作しているユーザが、下線906、と908をマウスでこの順番に選択したとする。   In this state, the user of the personal computer 2 accesses the blog site 1000 using the Web browser 10 and browses the HTML text (FIG. 11) in the HTML text database 26 via the Web server 22. . At this time, it is displayed on the display 4 of the personal computer 2 as shown in FIG. Here, it is assumed that the user operating the personal computer 2 selects the underlines 906 and 908 in this order with the mouse.

下線906と908に対応するリンクは、それぞれ図11の11062から11064行目と11072から11074行目であり、「http://blog1.com/u1/10/03.wav」と「http://blog1.com/u1/10/04.wav」である。拡張子が「.wav」であるので、実施例1と同様にパーソナルコンピュータ2の音声再生部12は、「http://blog1.com/u1/10/03.wav」と「http://blog1.com/u1/10/04.wav」の再生を試みる。   The links corresponding to the underlines 906 and 908 are the lines 11062 to 11064 and the lines 11072 to 11074 in FIG. 11, respectively, “http://blog1.com/u1/10/03.wav” and “http: // /Blog1.com/u1/10/04.wav ". Since the extension is “.wav”, the sound reproduction unit 12 of the personal computer 2 can execute “http://blog1.com/u1/10/03.wav” and “http: //” as in the first embodiment. blog1.com/u1/10/04.wav "is attempted.

ここでは、上述のように、「http://blog1.com/u1/10/03.wav」の内容は、無音となっているので、下線906をマウスで選択したときは、「ba」の音は再生されず、スピーカ14は、無音のままであり、下線908をマウスで選択したときだけ「ka」の音が再生されるので、スピーカ14から「baka」と聞こえることは無い。   Here, as described above, since the content of “http://blog1.com/u1/10/03.wav” is silent, when the underline 906 is selected with the mouse, “ba” The sound is not reproduced, the speaker 14 remains silent, and the sound “ka” is reproduced only when the underline 908 is selected with the mouse, so that the speaker 14 does not hear “baka”.

本実施例では、ステップ1320で、音声データの置換は、左にある単語に対応する方の音声データのファイルを無音にするとしたが、無音の代わりに、予め固定した音にしても良い。   In this embodiment, in the voice data replacement in step 1320, the voice data file corresponding to the word on the left is silenced. However, instead of silence, a sound fixed in advance may be used.

本実施例で、音声合成サイトA1010で、受信部A1012が出力したテキストデータを、音声合成部44へ入力する前に、テキストデータで内容を審査し、音声合成部44へ送るテキストデータを変更しても良い。   In this embodiment, before inputting the text data output from the receiving unit A1012 to the speech synthesizing unit 44 at the speech synthesizing site A1010, the contents are examined with the text data and the text data to be sent to the speech synthesizing unit 44 is changed. May be.

本実施例では、日本語の場合を用いたが、他の言語、例えば英語や中国語なども、発声を表現するテキストデータを用いることができるので、同様に扱うことができる。   In this embodiment, the case of Japanese is used, but other languages such as English and Chinese can also be handled in the same manner because text data expressing utterances can be used.

実施例1では、複数のブログサイトがあった場合、新たな読み上げ禁止用語を登録するときに複数のブログサイトの読み上げ禁止用語データベースを、それぞれ更新する必要がある。内容審査部と、読み上げ禁止用語データベースをブログサイトの外部の別のサイトに内容審査サイトとして設置し、複数のブログサイトで、内容審査サイトを共有するようにすれば、新たな読み上げ禁止用語を登録するときに、共有する内容審査サイトの読み上げ禁止用語データベースだけを更新すればよく、手間が省ける。   In the first embodiment, when there are a plurality of blog sites, it is necessary to update the reading-prohibited term database of the plurality of blog sites when registering a new reading-prohibited term. If you set up the content review department and the database for prohibited reading aloud on a separate site outside the blog site as a content review site, and share the content review site with multiple blog sites, register new prohibited words for reading aloud When you do this, you only need to update the read-only words database on the content review site that you share, saving you time and effort.

以下、この場合の実施例3を図2から図9、図14を用いて説明する。この実施例は、Webブラウザと音声再生機能を備えるパーソナルコンピュータ、実施例1と異なる構成のブログサイト、実施例1と同じ音声合成サイト、及び内容審査サイトの4つの部分から構成される。図2から図9の各構成要素の動作は、実施例1の図2から図9の各構成要素の動作と同じである。内容審査サイトは、インターネット上のWebサイトであり、サーバなどのコンピュータとソフトウェアで構成される。   Hereinafter, Embodiment 3 in this case will be described with reference to FIGS. 2 to 9 and FIG. This embodiment is composed of four parts: a personal computer having a Web browser and a voice reproduction function, a blog site having a configuration different from that of the first embodiment, the same voice synthesis site as that of the first embodiment, and a content examination site. The operation of each component in FIGS. 2 to 9 is the same as the operation of each component in FIGS. 2 to 9 of the first embodiment. The content examination site is a website on the Internet, and is composed of a computer such as a server and software.

図14は、実施例3の構成を示す。図14において、図1と同じものには同じ符号を付している。   FIG. 14 shows the configuration of the third embodiment. In FIG. 14, the same components as those in FIG.

ブログサイトB1400は、内容審査に関わる構成を備えていない点が実施例1と異なり、内容審査に関わる構成は、ブログサイトB1400とは異なるサイトである内容審査サイト1402に設けられる。   The blog site B1400 is different from the first embodiment in that the blog site B1400 is not provided with a configuration relating to content examination, and the configuration relating to the content examination is provided in the content examination site 1402, which is a site different from the blog site B1400.

内容審査サイト1402は、読み上げ禁止用語データベース1404及び内容審査部1406を有する。読み上げ禁止用語データベース1404は、音声での読み上げに適していない読み上げ禁止用語を格納する。内容審査部1406は、ブログサイトB1400のHTMLテキストデータベース26と音声テキストデータベース28、及び読み上げ禁止用語データベース1404を参照し、読み上げ禁止用語か否かを判定し、読み上げ禁止用語と判定したときは、対応する音声データを変更する。   The content review site 1402 has a reading-prohibited term database 1404 and a content review unit 1406. The reading-prohibited term database 1404 stores the reading-prohibited terms that are not suitable for voice reading. The content examination unit 1406 refers to the HTML text database 26 and the speech text database 28 of the blog site B 1400, and the reading-prohibited term database 1404 to determine whether or not it is a reading-prohibited term. Change the audio data to be used.

ブログサイトB1400には、ユーザを認証するログイン機能やWebページを検索する検索機能などがあるが、本実施例でも、省略する。   The blog site B1400 has a login function for authenticating a user and a search function for searching for a web page, which are also omitted in this embodiment.

読み上げ禁止用語データベース1404と内容審査部1406とは、それぞれ内容審査サイト1402で動作するデータベース及びプログラムであり、内容審査サイト1402を構成するハードウエア(コンピュータ)、そのオペレーティング・システム、及びそれらが提供するファイルシステムなどで実現する。   The reading-prohibited term database 1404 and the content review unit 1406 are a database and a program that operate on the content review site 1402, respectively, and the hardware (computer) that configures the content review site 1402, its operating system, and they provide Realized with a file system.

本実施例でも、「aho」と「baka」は、不適切な用語の発声であり、これを聞いた側では、不適切な用語を発声したように聞こえる。   Also in the present embodiment, “aho” and “baka” are utterances of inappropriate terms, and the person who hears them sounds as if they have uttered inappropriate terms.

以下、実施例1と同様に、パーソナルコンピュータ1でユーザが図2のように入力し、ブログサイト1400の編集部24が図3に示す処理を実行したとする。このときにHTMLテキストデータベース26に格納されたHTML文章は、図4と同じであり、付けられたファイル名も実施例1と同様に、「http://blog1.com/u1/10/honbun.html」であったとする。   Hereinafter, as in the first embodiment, it is assumed that the user inputs the personal computer 1 as shown in FIG. 2, and the editing unit 24 of the blog site 1400 executes the processing shown in FIG. The HTML text stored in the HTML text database 26 at this time is the same as that shown in FIG. 4, and the file name assigned is “http://blog1.com/u1/10/honbun. html ".

ブログサイトB1400の変換要求部30は、実施例1と同様に、定期的にHTMLテキストデータベース26を参照し、新たに格納されたファイルであるHTML文章を検出し、星印や三角印など絵文字で囲まれたテキストデータの部分を抽出し、抽出されたテキストデータ毎に、ユニークなURIを生成し、それらテキストデータとURIを音声合成サイト40へ送信し、URIに対応するファイル名の音声データと、そのURIの最後尾の「.wav」を「.txt」で置換したファイル名の読みのテキストデータを得る。ここでは、実施例1と同様に、音声合成サイトに送信されたデータのひとつは、テキストデータが「場」であり、生成されたURIは「http://blog1.com/u1/10/01.wav」であったとし、他のひとつは、テキストデータが「か」であり、生成されたURIは「http://blog1.com/u1/10/02.wav」であったとする。   As in the first embodiment, the conversion request unit 30 of the blog site B1400 periodically refers to the HTML text database 26, detects HTML text that is a newly stored file, and uses pictographs such as stars and triangles. A portion of the enclosed text data is extracted, a unique URI is generated for each extracted text data, the text data and the URI are transmitted to the speech synthesis site 40, and voice data having a file name corresponding to the URI The text data of the reading of the file name is obtained by replacing “.wav” at the end of the URI with “.txt”. Here, as in the first embodiment, one of the data transmitted to the speech synthesis site is text data “place”, and the generated URI is “http://blog1.com/u1/10/01”. .Wav ”, and the other one is that the text data is“ ka ”and the generated URI is“ http://blog1.com/u1/10/02.wav ”.

上記のデータを受信した音声合成サイト40は、実施例1と同様に動作し、URIに対応するファイル名の音声データのファイルと、そのURIの最後尾の「.wav」を「.txt」を置換したURIで、テキストデータをブログサイト3 1400の変換要求部30へ戻す。ここで、テキストデータは、実施例1と同様に、「場」を「ba」という音に変換し、「か」を「ka」という音に変換したとし、テキストデータは、「ba」と、「ka」となる。   The voice synthesis site 40 that has received the above data operates in the same manner as in the first embodiment, and the voice data file having the file name corresponding to the URI and the last “.wav” of the URI are changed to “.txt”. The text data is returned to the conversion request unit 30 of the blog site 3 1400 with the replaced URI. Here, it is assumed that the text data is converted from “ba” to a sound “ba” and “ka” is converted to a sound “ka”, as in the first embodiment, and the text data is “ba”. “Ka”.

この段階では、実施例1と同様に、「場」に対応するテキストデータのURIは、「http://blog1.com/u1/10/01.txt」となり、このURIで指定されるファイルの内容は、文字として解釈して、「ba」である。「か」に対応するテキストデータのURIは、「http://blog1.com/u1/10/02.txt」で、このURIで指定されるファイルの内容は、文字として解釈して、「ka」となる。   At this stage, as in the first embodiment, the URI of the text data corresponding to “place” is “http://blog1.com/u1/10/01.txt”, and the file specified by this URI The content is interpreted as characters and is “ba”. The URI of the text data corresponding to “ka” is “http://blog1.com/u1/10/02.txt”. The contents of the file specified by this URI are interpreted as characters, and “ka "

これらのデータを受信した変換要求部30は、実施例1と同様に受信したデータを音声テキストデータベース28へ格納し、HTMLテキストデータベース26にアクセスし、音声データと、テキストデータを得たHTML文章の絵文字で囲まれた部分を、Webブラウザが再生できるようにURIを含む適当なタグで置換する。置換した後のHTML文章は、図5と同じであり、図4に示すHTML文章に代わって、図5に示すHTML文章がHTMLテキストデータベース26に格納される。音声テキストデータベース28に格納される音声データと読みのテキストデータは、実施例1と同様に、図6に示す通りである。   Upon receiving these data, the conversion request unit 30 stores the received data in the speech text database 28 as in the first embodiment, accesses the HTML text database 26, and obtains the speech data and the HTML text obtained from the text data. The part surrounded by pictograms is replaced with an appropriate tag including a URI so that the Web browser can reproduce it. The HTML text after replacement is the same as that shown in FIG. 5, and the HTML text shown in FIG. 5 is stored in the HTML text database 26 instead of the HTML text shown in FIG. 4. The voice data and the text data of reading stored in the voice text database 28 are as shown in FIG.

内容審査サイト1402の内容審査部1406は、ブログサイトB1400のHTMLテキストデータベース26にあるHTML文章と音声テキストデータベース28にある音声データとテキストデータを参照し、読み上げ禁止用語データベース1404に格納した読み上げ禁止用語を用いて処理する。   The content review unit 1406 of the content review site 1402 refers to the HTML text in the HTML text database 26 of the blog site B 1400, the speech data and text data in the speech text database 28, and the speech prohibition term stored in the speech prohibition term database 1404. To process.

内容審査部1406の処理は、実施例1の内容審査部34と同様であり、定期的にHTMLテキストデータベース26にあるファイルであるHTML文章の各々について、図7のステップ700からステップ730の処理を行う。ここでは、内容審査部34は、図5のHTML文章について処理を行い、ステップ702から712の処理を繰り返したとする。   The processing of the content examination unit 1406 is the same as that of the content examination unit 34 of the first embodiment. For each HTML sentence that is a file in the HTML text database 26, the processing from step 700 to step 730 in FIG. Do. Here, it is assumed that the content examination unit 34 performs processing on the HTML text of FIG. 5 and repeats the processing from steps 702 to 712.

すると、図5のHTML文章500の5062行目がステップ708でパタンマッチし、ステップ712で、「http://blog1.com/u1/10/01.wav」が、$Fに追加される。また、「.wav」から「.txt」に置換したURIは、「http://blog1.com/u1/10/01.txt」となり、それに格納されているテキストデータ、「ba」が$Sに追加される。   Then, line 5062 of the HTML sentence 500 in FIG. 5 is pattern-matched at step 708, and “http://blog1.com/u1/10/01.wav” is added to $ F at step 712. The URI replaced from “.wav” to “.txt” is “http://blog1.com/u1/10/01.txt”, and the text data “ba” stored therein is $ S. To be added.

ステップ704へ戻り、上述のステップ704からステップ712を繰り返し、再び、図5のHTML文章500の5072行目がステップ708でパタンマッチし、ステップ712で、「http://blog1.com/u1/10/02.wav」が、$Fに追加される。また、「.wav」から「.txt」に置換したURIは、「http://blog1.com/u1/10/02.txt」となり、それに格納されているテキストデータ、「ka」が$Sに追加される。   Returning to step 704, the above-mentioned steps 704 to 712 are repeated, and line 5072 of the HTML sentence 500 of FIG. 5 is again pattern-matched in step 708. In step 712, “http://blog1.com/u1/ 10 / 02.wav "is added to $ F. The URI replaced from “.wav” to “.txt” is “http://blog1.com/u1/10/02.txt”, and the text data stored in the URI “ka” is $ S. To be added.

この結果、$Fは[http://blog1.com/u1/10/01.wav、http://blog1.com/u1/10/02.wav]となり、$Sは[ba、ka]となる。   As a result, $ F becomes [http: // blog1. com / u1 / 10/01. wav, http: // blog1. com / u1 / 10/02. wav] and $ S becomes [ba, ka].

次にステップ714へ進み、$Sが空白のときは終了し(730)、空白でないときは、$Sと読み上げ禁止用語データベース28にある読み上げ禁止用語とのパタンマッチを行う(ステップ716)。   Next, the process proceeds to step 714. If $ S is blank, the process ends (730). If $ S is not blank, pattern matching is performed between $ S and the prohibited words to be read in the prohibited words database 28 (step 716).

次に、ステップ718へ進み、パタンマッチが成功した場合は、対応する音声データの内容を予め決めた音声データに置換し(ステップ720)、$Fと$Sを一要素分左へシフトする(ステップ722)。パタンマッチが成功しなかった場合は、ステップ722へ進む。ステップ722が終了した後は、ステップ714からステップ722を繰り返し、$Sが空白のときは終了する(ステップ730)。   Next, the process proceeds to step 718. If the pattern match is successful, the corresponding audio data is replaced with predetermined audio data (step 720), and $ F and $ S are shifted to the left by one element (step 720). Step 722). If the pattern match is not successful, the process proceeds to step 722. After step 722 ends, step 714 to step 722 are repeated, and when $ S is blank, it ends (step 730).

読み上げ禁止用語データベース1404には、図8に示す2つの読み上げ禁止用語802と804が格納され、内容は、それぞれ、「aho」と「baka」であったとする。   The reading-prohibited term database 1404 stores two reading-prohibited terms 802 and 804 shown in FIG. 8, and the contents are “aho” and “baka”, respectively.

ここでは、ステップ714で、$Sは[ba、ka]であり、空白で無いので、ステップ716へ進む。読み上げ禁止用語802は「aho」であり、パタンマッチは成功しないが、読み上げ禁止用語804は「baka」であり、パタンマッチは成功する。どこで、ステップ720で、対応する音声データの内容を予め決めた音声データに置換する。ここでは、音声データの置換は、$Fの先頭(左側)にあるURIで指定される音声データのファイルの内容を無音に置換するとする。   Here, in step 714, $ S is [ba, ka] and is not blank, so the process proceeds to step 716. The reading prohibition term 802 is “aho” and the pattern match does not succeed, but the reading prohibition term 804 is “baka” and the pattern match succeeds. In step 720, the content of the corresponding audio data is replaced with predetermined audio data. Here, it is assumed that the audio data is replaced by silence in the audio data file specified by the URI at the top (left side) of $ F.

この段階で、$Fは[http://blog1.com/u1/10/01.wav、http://blog1.com/u1/10/02.wav]であるので、図6の音声データ602である、「http://blog1.com/u1/10/01.wav」の内容は、「ba」に対応する音ではなく、無音となる。   At this stage, $ F is [http: // blog1. com / u1 / 10/01. wav, http: // blog1. com / u1 / 10/02. wav], the content of “http://blog1.com/u1/10/01.wav”, which is the audio data 602 in FIG. 6, is not a sound corresponding to “ba” but is silent.

次に、ステップ722で、$Fと$Sを一要素分左へシフトし、$Fは[http://blog1.com/u1/10/02.wav]となり、$Sは[ka]となる。ステップ714からステップ718でパタンマッチするものは無いので、ステップ722へ進み、$Fと$Sを一要素分左へシフトし、再度、ステップ714で、$Fと$Sは、両者とも空白になり、内容審査部1406の処理を終了する(ステップ730)。   Next, in step 722, $ F and $ S are shifted to the left by one element, and $ F is changed to [http: // blog1. com / u1 / 10/02. wav] and $ S becomes [ka]. Since there is no pattern match from step 714 to step 718, the process proceeds to step 722, $ F and $ S are shifted to the left by one element, and again in step 714, both $ F and $ S are left blank. Thus, the processing of the content examination unit 1406 is terminated (step 730).

上記の状態でパーソナルコンピュータ2のユーザが、Webブラウザ10を用いて、ブログサイトB1400へアクセスし、Webサーバ20を経由して、HTMLテキストデータベース26にある、HTML文章(図5)を閲覧したとする。このとき、パーソナルコンピュータ2のディスプレイ4には、実施例1と同様に図9のように表示される。   In the above state, the user of the personal computer 2 accesses the blog site B 1400 using the Web browser 10 and browses the HTML text (FIG. 5) in the HTML text database 26 via the Web server 20. To do. At this time, the display 4 of the personal computer 2 is displayed as shown in FIG.

ここで、実施例1と同様にパーソナルコンピュータ2を操作しているユーザが、下線906、と908をマウスでこの順番に選択したとする。ここでは、上述のように、「http://blog1.com/u1/10/01.wav」の内容は、無音となっているので、下線906をマウスで選択したときは、「ba」の音は再生されず、スピーカ14は無音のままであり、下線908をマウスで選択したときだけ「ka」の音が再生されるので、スピーカ14から「baka」と聞こえることは無い。   Here, it is assumed that the user operating the personal computer 2 selects the underlines 906 and 908 with the mouse in this order as in the first embodiment. Here, as described above, the content of “http://blog1.com/u1/10/01.wav” is silent, so when the underline 906 is selected with the mouse, the “ba” The sound is not reproduced, the speaker 14 remains silent, and the sound “ka” is reproduced only when the underline 908 is selected with the mouse, so that the speaker 14 does not hear “baka”.

本実施例では、ステップ720で、音声データの置換は、左にある単語に対応する方の音声データのファイルを無音にするとしたが、実施例1と同様に無音の代わりに、予め固定した音にしても良い。   In this embodiment, in step 720, the voice data is replaced by silence in the voice data file corresponding to the left word. However, as in the first embodiment, instead of silence, Anyway.

本実施例では、パーソナルコンピュータ1のユーザが、ステップ300から314の処理で、格納した合成音声の再生を含むWebページをそのまま、パーソナルコンピュータ2のユーザが閲覧する例を取り上げたが、パーソナルコンピュータ1のユーザが、一度格納したWebページを、再度編集し、再生される音声ファイルへのリンクの位置や順序を変更しても、内容審査部34は、定期的にステップ700から730の処理を行うので、不適切な発声を検出することができる。   In the present embodiment, an example has been described in which the user of the personal computer 1 browses the Web page including the reproduction of the stored synthesized speech as it is in the processing of steps 300 to 314, but the user of the personal computer 2 browses the web page as it is. Even if the user edits the Web page once stored and changes the position and order of links to the audio file to be played back, the content examining unit 34 periodically performs the processing of steps 700 to 730. Therefore, inappropriate utterances can be detected.

上述の実施例3で、音声合成サイト40で、受信部42が出力したテキストデータを、音声合成部44へ入力する前に、テキストデータで内容を審査し、不適切と判断した場合は、テキストデータを変更し、変更したテキストデータを音声合成部44へ送るテキストデータとしても良い。   In Example 3 described above, before the text data output from the receiving unit 42 is input to the speech synthesizing unit 44 at the speech synthesizing site 40, the contents are examined with the text data, and the text data is determined to be inappropriate. The data may be changed, and the changed text data may be sent to the speech synthesizer 44 as text data.

本実施例では、音声テキストデータベース28に格納されたテキストデータ604と608は、変換要求部30と内容審査サイト1402からだけアクセスされ、編集部24など、他のプログラムからアクセスされることが無いので、いったん音声ファイルを作成し、音声テキストデータベース28に格納した後に、音声テキストデータベース28のテキストデータだけを変更して、内容審査サイト1402で適正と判定され、不適切な用語を発声するように変更することはできないという効果がある。   In this embodiment, the text data 604 and 608 stored in the speech text database 28 are accessed only from the conversion request unit 30 and the content examination site 1402 and are not accessed from other programs such as the editing unit 24. Once the voice file is created and stored in the voice text database 28, only the text data in the voice text database 28 is changed, and the content review site 1402 determines that it is appropriate, and changes to utter inappropriate terms. It has the effect that it cannot be done.

本実施例では、日本語の場合を用いたが、他の言語、例えば英語や中国語なども、発声を表現するテキストデータを用いることができるので、同様に扱うことができる。   In this embodiment, the case of Japanese is used, but other languages such as English and Chinese can also be handled in the same manner because text data expressing utterances can be used.

実施例2では、内容審査部と、電子透かし検出部と、読み上げ禁止用語データベースをブログサイトに備えたが、内容審査部と、電子透かし検出部と、読み上げ禁止用語データベースをブログサイトの外部の別のサイトに内容審査サイトとして設置し、複数のブログサイトで、内容審査サイトを共有するようにしても良い。   In the second embodiment, the content review unit, the digital watermark detection unit, and the reading prohibition term database are provided in the blog site. However, the content review unit, the digital watermark detection unit, and the read prohibition term database are separately provided outside the blog site. This site may be set up as a content review site, and the content review site may be shared by a plurality of blog sites.

以下、この場合の実施例4を図2から図4、図8、図9、図11から図13、図15を用いて説明する。この実施例は、Webブラウザと音声再生機能を備えるパーソナルコンピュータ、実施例2と異なる構成のブログサイト、実施例2と同じ音声合成サイト、及び実施例3と異なる構成の内容審査サイトの4つの部分から構成される。   Hereinafter, Embodiment 4 in this case will be described with reference to FIGS. 2 to 4, 8, 9, 11 to 13, and 15. This embodiment has four parts: a personal computer having a web browser and a voice reproduction function, a blog site having a different configuration from that of the second embodiment, the same voice synthesis site as that of the second embodiment, and a content examination site having a different configuration from that of the third embodiment. Consists of

内容審査サイトは、インターネット上のWebサイトであり、サーバなどのコンピュータとソフトウェアで構成する。   The content examination site is a website on the Internet, and is composed of a computer such as a server and software.

図4、図8、図9、図11から図13の各構成要素の動作は、実施例2の各構成要素の動作と同じである。   The operation of each component in FIGS. 4, 8, 9, and 11 to 13 is the same as the operation of each component in the second embodiment.

図15は、実施例4の構成を示す。図15において、図10と同じものには同じ符号を付している。   FIG. 15 shows the configuration of the fourth embodiment. In FIG. 15, the same components as those in FIG. 10 are denoted by the same reference numerals.

ブログサイトC1500は、内容審査に関わる構成を備えていない点が実施例2と異なり、内容審査に関わる構成は、ブログサイトC1500とは異なるサイトである内容審査サイト1502に設けられる。   The blog site C1500 is different from the second embodiment in that it does not have a configuration relating to content examination, and a configuration relating to content examination is provided in the content examination site 1502, which is a site different from the blog site C1500.

1502は、内容審査サイト1502は、電子透かし検出部1504、読み上げ禁止用語データベース1506及び内容審査部A1508を有する。電子透かし検出部1504は、図10の電子透かし検出部1006と同じである。読み上げ禁止用語データベース1506は、図10の読み上げ禁止用語データベース32と同じである。内容審査部A1508は、ブログサイトC1500の音声データベース1002を参照し、電子透かし検出部1504からテキストデータを得て、ブログサイトC1500のHTMLテキストデータベース26と、読み上げ禁止用語データベース1506を参照し、読み上げ禁止用語か否かを判定し、読み上げ禁止用語と判定したときは、音声データベース1002に格納された対応する音声データを変更する。   The content review site 1502 includes a digital watermark detection unit 1504, a reading prohibited term database 1506, and a content review unit A 1508. The digital watermark detection unit 1504 is the same as the digital watermark detection unit 1006 in FIG. The reading-prohibited term database 1506 is the same as the reading-prohibited term database 32 in FIG. The content examination unit A1508 refers to the voice database 1002 of the blog site C1500, obtains text data from the digital watermark detection unit 1504, refers to the HTML text database 26 of the blog site C1500, and the reading-prohibited term database 1506, and is prohibited from reading. It is determined whether or not the term is a term, and when it is determined that the term is a reading-prohibited term, the corresponding speech data stored in the speech database 1002 is changed.

ブログサイトには、ユーザを認証するログイン機能やWebページを検索する検索機能などがあるが、本実施例でも、省略する。   The blog site has a login function for authenticating a user and a search function for searching for a Web page, which are also omitted in this embodiment.

読み上げ禁止用語データベース1506、電子透かし検出部1504、及び内容審査部A1508は、内容審査サイトA1502で動作するデータベース及びプログラムであり、内容審査サイトA1502を構成するハードウエア(コンピュータ)、そのオペレーティング・システム、及びそれらが提供するファイルシステムなどで実現する。   The reading-prohibited term database 1506, the digital watermark detection unit 1504, and the content screening unit A 1508 are a database and a program that operate on the content screening site A 1502, hardware (computer) that constitutes the content screening site A 1502, an operating system thereof, And a file system provided by them.

本実施例でも、「aho」と「baka」は、不適切な用語の発声であり、これを聞いた側では、不適切な用語を発声したように聞こえる。   Also in the present embodiment, “aho” and “baka” are utterances of inappropriate terms, and the person who hears them sounds as if they have uttered inappropriate terms.

パーソナルコンピュータ1でのエンドユーザの操作の流れと、編集部24での処理の流れは、実施例1から実施例3と同じである(図2と図3)。   The flow of operation of the end user on the personal computer 1 and the flow of processing in the editing unit 24 are the same as those in the first to third embodiments (FIGS. 2 and 3).

ここでは、エンドユーザは、書き込むボタン210をマウス7で操作し、タイトル入力部分202と本文入力部分204に書き込まれた文章をブログサイトC1500のHTMLテキストデータベース26へ適当なファイル名をつけて、ファイルとして格納したとする(ステップ310から314)。ここでは、付けられたファイル名は、実施例1から実施例3と同様に「http://blog1.com/u1/10/honbun.html」であったとする。このときにHTMLテキストデータベース26に格納されたHTML文章は実施例1と同様に図4であったとする。   Here, the end user operates the write button 210 with the mouse 7, assigns a proper file name to the HTML text database 26 of the blog site C 1500, and writes the text written in the title input part 202 and the text input part 204. (Steps 310 to 314). Here, it is assumed that the assigned file name is “http://blog1.com/u1/10/honbun.html” as in the first to third embodiments. Assume that the HTML text stored in the HTML text database 26 at this time is FIG. 4 as in the first embodiment.

変換要求部A1004は、実施例1から実施例3と同様に、定期的にHTMLテキストデータベース26を参照し、新たに格納されたファイルであるHTML文章を検出し、星印や三角印など絵文字で囲まれたテキストデータの部分を抽出し、抽出されたテキストデータ毎に、ユニークなURIを生成し、それらテキストデータとURIを音声合成サイトA1010へ送信し、URIに対応するファイル名の電子透かし入り音声データを得る。   As in the first to third embodiments, the conversion request unit A1004 periodically refers to the HTML text database 26, detects HTML text that is a newly stored file, and uses pictograms such as stars and triangles. Extracts the enclosed text data part, generates a unique URI for each extracted text data, sends the text data and the URI to the speech synthesis site A1010, and includes an electronic watermark with a file name corresponding to the URI Get audio data.

ここでは、音声合成サイトA1010に送信されたデータのひとつは、テキストデータが「場」であり、URIが「http://blog1.com/u1/10/03.wav」であったとし、他のひとつは、テキストデータが「か」であり、URIが、「http://blog1.com/u1/10/04.wav」であったとする。   Here, it is assumed that one of the data transmitted to the speech synthesis site A 1010 is that the text data is “place”, and the URI is “http://blog1.com/u1/10/03.wav”, and the other One of them is that the text data is “ka” and the URI is “http://blog1.com/u1/10/04.wav”.

上記のデータを受信した音声合サイトA1010の受信部A1012は、テキストデータを音声合成部44へ出力し、URIを送信部A1016へ出力する。音声合成部44は、テキストデータを音声データに変換し、読みのテキストデータと、音声データを電子透かし挿入部1014へ出力する。電子透かし挿入部1014は、音声合成部44から入力した音声データに、読みのテキストデータを電子透かしとして音声データに挿入し、送信部A1016へ出力する。音声データへの電子透かしの挿入、電子透かしの検出、抽出については、実施例2と同様である。   Receiving unit A1012 of voice joint site A1010 that has received the above data outputs text data to voice synthesizing unit 44 and outputs a URI to transmitting unit A1016. The voice synthesis unit 44 converts the text data into voice data, and outputs the read text data and the voice data to the digital watermark insertion unit 1014. The digital watermark insertion unit 1014 inserts the text data of the reading into the voice data as the digital watermark into the voice data input from the voice synthesis unit 44, and outputs the voice data to the transmission unit A 1016. Insertion of digital watermark into audio data, detection and extraction of digital watermark are the same as in the second embodiment.

送信部A1016は、実施例2と同様に、電子透かし挿入部1014から得た、電子透かし入り音声データを、受信部A1012から得たURIに対応するファイル名の音声データのファイルとしてブログサイトC1500の変換要求部A1004へ戻す。ここで、テキストデータは、「場」を「ba」という音に変換し、「か」を「ka」という音に変換したとする。   Similarly to the second embodiment, the transmission unit A1016 transmits the audio data with digital watermark obtained from the digital watermark insertion unit 1014 as a file of audio data having a file name corresponding to the URI obtained from the reception unit A1012. Return to conversion request unit A1004. Here, it is assumed that the text data is converted from “ba” into a sound “ba” and “ka” into a sound “ka”.

一方の「ba」が電子透かしで挿入された電子透かし入りの音声データのファイルは、URIが「http://blog1.com/u1/10/03.wav」であり、他方の「ka」が電子透かしで挿入された電子透かし入りの音声データのファイルは、URIが「http://blog1.com/u1/10/04.wav」である。   The file of audio data with a digital watermark in which one “ba” is inserted with a digital watermark has a URI “http://blog1.com/u1/10/03.wav” and the other “ka” The audio data file with the digital watermark inserted by the digital watermark has a URI “http://blog1.com/u1/10/04.wav”.

これらのデータを受信した変換要求部A1004は、受信したデータを音声データベース1002へ格納し、HTMLテキストデータベース26にアクセスし、音声データと、テキストデータを得たHTML文章の絵文字で囲まれた部分を、Webブラウザが再生できるようにURIを含む適当なタグで置換する。置換した後のHTML文章は、実施例2の図11と同様である。以降は、図4に示すHTML文章に代わって、図11に示すHTML文章がHTMLテキストデータベース26に格納される。音声データベース1002に格納される電子透かし入り音声データは、実施例2の図12と同様である。   Upon receiving these data, the conversion request unit A1004 stores the received data in the speech database 1002, accesses the HTML text database 26, and converts the speech data and the portion surrounded by pictographs of the HTML text from which the text data was obtained. Replace with an appropriate tag containing a URI so that the web browser can play it. The HTML text after the replacement is the same as that in FIG. Thereafter, the HTML text shown in FIG. 11 is stored in the HTML text database 26 instead of the HTML text shown in FIG. The voice data with digital watermark stored in the voice database 1002 is the same as that of FIG.

内容審査サイトA1502の内容審査部A1508は、ブログサイトC1500のHTMLテキストデータベース26にあるHTML文章と、音声データベース1002にある電子透かし入り音声データを参照し、読み上げ禁止用語データベース1506に格納した読み上げ禁止用語を用いて処理を行う。   The content review unit A1508 of the content review site A1502 refers to the HTML text in the HTML text database 26 of the blog site C1500 and the digital watermark-added speech data in the speech database 1002, and the speech-prohibited terminology stored in the speech-prohibited terminology database 1506 Process using.

内容審査部A1508の処理は、実施例2の内容審査部の処理と同様であり、定期的にHTMLテキストデータベース26にあるファイルであるHTML文章の各々について、図13のステップ1300からステップ1330の処理を実行する。ここでは、内容審査部2 1508は、図11のHTML文章について処理を行い、ステップ1302から1312の処理を繰り返したとする。   The processing of the content screening unit A 1508 is the same as the processing of the content screening unit of the second embodiment. For each HTML sentence that is a file in the HTML text database 26 periodically, the processing from step 1300 to step 1330 in FIG. Execute. Here, it is assumed that the content examination unit 2 1508 performs processing on the HTML text of FIG. 11 and repeats the processing of steps 1302 to 1312.

すると、図11のHTML文章1100の11062行目がステップ1308でパタンマッチし、ステップ1311で、「http://blog1.com/u1/10/03.wav」から電子透かしで挿入されているテキストデータ「ba」を抽出する。ステップ1312で「http://blog1.com/u1/10/03.wav」が、$Fに追加され、「ba」が$Sに追加される。   Then, the 11062st line of the HTML sentence 1100 in FIG. 11 is pattern-matched in Step 1308, and in Step 1311, the text inserted from “http://blog1.com/u1/10/03.wav” with a digital watermark is inserted. Data “ba” is extracted. In step 1312, “http://blog1.com/u1/10/03.wav” is added to $ F, and “ba” is added to $ S.

ステップ1304へ戻り、上述のステップ1304からステップ1312を繰り返し、再び、図11のHTML文章1100の11072行目がステップ1308でパタンマッチし、ステップ1311で、「http://blog1.com/u1/10/04.wav」から電子透かしで挿入されているテキストデータ「ka」を抽出する。ステップ1312で「http://blog1.com/u1/10/04.wav」が、$Fに追加され、「ka」が$Sに追加される。   Returning to step 1304, the above steps 1304 to 1312 are repeated, and the 11072st line of the HTML sentence 1100 in FIG. 11 is again pattern matched in step 1308. In step 1311, “http://blog1.com/u1/ The text data “ka” inserted by the digital watermark is extracted from “10 / 04.wav”. In step 1312, “http://blog1.com/u1/10/04.wav” is added to $ F, and “ka” is added to $ S.

この結果、$Fは、実施例2と同様に、[http://blog1.com/u1/10/03.wav、http://blog1.com/u1/10/04.wav]となり、$Sは[ba、ka]となる。   As a result, $ F is [http: // blog1. com / u1 / 10/03. wav, http: // blog1. com / u1 / 10/04. wav] and $ S becomes [ba, ka].

次にステップ1314へ進み、$Sが空白のときは終了し(1330)、空白でないときは、$Sと読み上げ禁止用語データベース1506にある読み上げ禁止用語とのパタンマッチを行う(ステップ1316)。   Next, the process proceeds to step 1314. If $ S is blank, the process is terminated (1330). If $ S is not blank, pattern matching is performed between $ S and the prohibited words to be read in the prohibited words database 1506 (step 1316).

次に、ステップ1318へ進み、パタンマッチが成功した場合は、対応する音声データの内容を予め決めた音声データに置換し(ステップ1320)、$Fと$Sを一要素分左へシフトする(ステップ1322)。パタンマッチが成功しなかった場合は、ステップ1322へ進む。ステップ1322が終了した後は、ステップ1314からステップ1322を繰り返し、$Sが空白のときは終了する(ステップ1330)。   Next, the process proceeds to step 1318. If the pattern match is successful, the content of the corresponding audio data is replaced with predetermined audio data (step 1320), and $ F and $ S are shifted to the left by one element (step 1320). Step 1322). If the pattern match is not successful, the process proceeds to step 1322. After step 1322 is completed, steps 1314 to 1322 are repeated, and when $ S is blank, the process ends (step 1330).

ここでは、禁止用語データベース1506には、実施例2と同様に図8に示すように、2つの読み上げ禁止用語802と804が格納され、内容は、それぞれ、「aho」と「baka」であったとする。   Here, as shown in FIG. 8, the prohibited term database 1506 stores two reading prohibited terms 802 and 804 as shown in FIG. 8, and the contents are “aho” and “baka”, respectively. To do.

ステップ1314で、$Sは[ba、ka]であり、空白でないので、ステップ1316へ進む。読み上げ禁止用語802は「aho」であり、パタンマッチは成功しないが、読み上げ禁止用語804は「baka」であり、パタンマッチは成功する。そこで、ステップ1320で、対応する音声データの内容を予め決めた音声データに置換する。ここでは、音声データに置換は、$Fの先頭(左側)にある単語に対応する方の音声データのファイルを無音にするとする。   In step 1314, since $ S is [ba, ka] and is not blank, the process proceeds to step 1316. The reading prohibition term 802 is “aho” and the pattern match does not succeed, but the reading prohibition term 804 is “baka” and the pattern match succeeds. Therefore, in step 1320, the content of the corresponding audio data is replaced with predetermined audio data. Here, it is assumed that the replacement with the voice data makes the voice data file corresponding to the word at the top (left side) of $ F silence.

この段階で、$Fは、[http://blog1.com/u1/10/03.wav、http://blog1.com/u1/10/04.wav]であるので、図12の音声データ1202である、「http://blog1.com/u1/10/03.wav」の内容は、「ba」に対応する音ではなく、無音となる。   At this stage, $ F is [http: // blog1. com / u1 / 10/03. wav, http: // blog1. com / u1 / 10/04. wav], the content of “http://blog1.com/u1/10/03.wav”, which is the audio data 1202 of FIG. 12, is not a sound corresponding to “ba” but a silence.

次に、ステップ1322で、$Fと$Sを一要素分左へシフトし、$Fは[http://blog1.com/u1/10/04.wav]となり、$Sは[ka]となる。ステップ1314からステップ1318でパタンマッチするものは無いので、ステップ1322へ進み、$Fと$Sを一要素分左へシフトし、再度、ステップ1314で、$Fと$Sは、両者とも空白になり、内容審査部A1508の処理を終了する(ステップ1330)。   Next, in step 1322, $ F and $ S are shifted to the left by one element, and $ F is changed to [http: // blog1. com / u1 / 10/04. wav] and $ S becomes [ka]. Since there is no pattern match from step 1314 to step 1318, the process proceeds to step 1322, where $ F and $ S are shifted to the left by one element, and again in step 1314, both $ F and $ S are left blank. Thus, the processing of the content examination unit A 1508 is terminated (step 1330).

上記の状態でパーソナルコンピュータ2のユーザが、Webブラウザ10を用いて、ブログサイトC1500へアクセスし、Webサーバ22を経由して、HTMLテキストデータベース26にある、HTML文章(図11)を閲覧したとする。このとき、パーソナルコンピュータ2のディスプレイ4には、実施例1から実施例3と同様に図9に示すように表示される。   In the above state, the user of the personal computer 2 accesses the blog site C1500 using the Web browser 10 and browses the HTML text (FIG. 11) in the HTML text database 26 via the Web server 22. To do. At this time, the display 4 of the personal computer 2 is displayed as shown in FIG. 9 as in the first to third embodiments.

ここで、パーソナルコンピュータ2を操作しているユーザが、下線906、と908をマウスでこの順番に選択したとする。   Here, it is assumed that the user operating the personal computer 2 selects the underlines 906 and 908 in this order with the mouse.

下線906と908に対応するリンクは、それぞれ図11の11062から11064行目と11072から11074行目であり、「http://blog1.com/u1/10/03.wav」と、「http://blog1.com/u1/10/04.wav」である。拡張子が「.wav」であるので、実施例1と同様にパーソナルコンピュータ2の音声再生部12は、「http://blog1.com/u1/10/03.wav」と「http://blog1.com/u1/10/04.wav」の再生を試みる。   The links corresponding to the underlines 906 and 908 are the lines 11062 to 11064 and the lines 11072 to 11074 in FIG. 11, respectively, “http://blog1.com/u1/10/03.wav” and “http: //Blog1.com/u1/10/04.wav ". Since the extension is “.wav”, the sound reproduction unit 12 of the personal computer 2 can execute “http://blog1.com/u1/10/03.wav” and “http: //” as in the first embodiment. blog1.com/u1/10/04.wav "is attempted.

ここでは、上述のように、「http://blog1.com/u1/10/03.wav」の内容は無音となっているので、下線906をマウスで選択したときは、「ba」の音は再生されず、スピーカ14は、無音のままであり、下線908をマウスで選択したときに「ka」の音が再生されるので、スピーカ14から「baka」と聞こえることは無い。   Here, as described above, since the content of “http://blog1.com/u1/10/03.wav” is silent, the sound of “ba” is selected when the underline 906 is selected with the mouse. Is not reproduced and the speaker 14 remains silent, and the sound “ka” is reproduced when the underline 908 is selected with the mouse, so that the speaker 14 does not hear “baka”.

本実施例では、ステップ1320で、音声データの置換は、左にある単語に対応する方の音声データのファイルを無音にするとしたが、無音の代わりに、予め固定した音にしても良い。   In this embodiment, in the voice data replacement in step 1320, the voice data file corresponding to the word on the left is silenced. However, instead of silence, a sound fixed in advance may be used.

上述の実施例4で、音声合成サイトA1010で、受信部A1012が出力したテキストデータを、音声合成部44へ入力する前に、テキストデータで内容を審査し、音声合成部44へ送るテキストデータを変更しても良い。   In the fourth embodiment, the text data output from the receiving unit A1012 at the speech synthesis site A1010 is examined with the text data before being input to the speech synthesis unit 44, and the text data to be sent to the speech synthesis unit 44 is It may be changed.

本実施例では、日本語の場合を用いたが、他の言語、例えば英語や中国語なども、発声を表現するテキストデータを用いることができるので、同様に扱うことができる。   In this embodiment, the case of Japanese is used, but other languages such as English and Chinese can also be handled in the same manner because text data expressing utterances can be used.

実施例1の構成図である。1 is a configuration diagram of Example 1. FIG. ブログの入力画面の例である。It is an example of the input screen of a blog. 編集部の処理フローチャートである。It is a process flowchart of an edit part. 格納されたHTML文章の例を示した図である。It is the figure which showed the example of the stored HTML text. 置換したHTML文章の例を示した図である。It is the figure which showed the example of the substituted HTML sentence. 音声テキストデータベースに格納されたデータの例を示す図である。It is a figure which shows the example of the data stored in the audio | voice text database. 内容審査部の処理フローチャートである。It is a processing flowchart of a content examination part. 読み上げ禁止用語データベースに格納される用語の例を示す図である。It is a figure which shows the example of the term stored in the reading prohibition term database. ブログの表示画面例を示す図である。It is a figure which shows the example of a display screen of a blog. 実施例2の構成図である。FIG. 6 is a configuration diagram of Example 2. 置換したHTML文章の例を示す図である。It is a figure which shows the example of the substituted HTML text. 音声データベースに格納された電子透かし入り音声データの例示す図である。It is a figure which shows the example of the audio | voice data with a digital watermark stored in the audio | voice database. 内容審査部の処理フローチャートである。It is a processing flowchart of a content examination part. 実施例3の構成図である。FIG. 6 is a configuration diagram of Example 3. 実施例4の構成図である。FIG. 6 is a configuration diagram of Example 4.

符号の説明Explanation of symbols

1、2:パーソナルコンピュータ、3、4:ディスプレイ、5、6:キーボード、7、8:マウス、9、10:Webブラウザ、11、12音声再生部、13、14スピーカ、20、1000、1400、1500:ブログサイト、22:Webサーバ、24:編集部、26:HTMLテキストデータベース、28:音声テキストデータベース、30:変換要求部、32:読み上げ禁止用語データベース、34:内容審査部、40、1010:音声合成サイト、42:受信部、44:音声合成部、46:送信部、200:入力画面、202:タイトル入力部分、204:本文入力部分、206:音声−絵文字対応表示部分、208:取り消すボタン、210:書き込むボタン、400、500:HTML文章、602:音声データ、604:テキストデータ、606:音声データ、608:テキストデータ、802、804:読み上げ禁止用語、1402、1502:内容審査サイト。   1, 2, personal computer, 3, 4: display, 5, 6: keyboard, 7, 8: mouse, 9, 10: web browser, 11, 12 audio playback unit, 13, 14 speakers, 20, 1000, 1400, 1500: Blog site, 22: Web server, 24: Editing unit, 26: HTML text database, 28: Speech text database, 30: Conversion request unit, 32: Reading prohibited term database, 34: Content review unit, 40, 1010: Speech synthesis site, 42: reception unit, 44: speech synthesis unit, 46: transmission unit, 200: input screen, 202: title input part, 204: text input part, 206: voice-pictogram correspondence display part, 208: cancel button 210: Write button 400, 500: HTML text 602: Audio data 604: Text data, 606: voice data, 608: text data, 802, 804: reading banned words, 1402,1502: content review site.

Claims (5)

テキストデータの受信に応答して、該テキストデータを音声データに変換し、該音声データと該音声データの読みを表すテキストデータとを送信する音声合成サイトと、
接続する端末から受信したテキストデータを格納するテキストデータベース、前記端末からの指示に応答して前記テキストデータから複数の部分テキストデータを抽出し、前記抽出した複数の部分テキストデータを前記音声合成サイトに送信し、前記音声合成サイトから送信された前記複数の部分テキストデータに対応する音声データと該音声データの読みを表すテキストデータとを音声テキストデータベースに格納する変換要求部、及び前記複数の部分テキストデータに対応する前記音声データの読みを表すテキストデータを連続させたとき、該連続させた読みを表すテキストデータが予め設定した読み上げ禁止用語に該当する場合に、前記部分テキストデータに対応する前記音声データを予め定めた音声データに置換する内容審査部を含むブログサイトとを有することを特徴とするテキスト音声変換サービスシステム。
In response to receiving the text data, converting the text data into voice data and transmitting the voice data and text data representing the reading of the voice data;
A text database for storing text data received from a connected terminal, a plurality of partial text data is extracted from the text data in response to an instruction from the terminal, and the extracted plurality of partial text data is sent to the speech synthesis site A conversion request unit for transmitting and storing in the speech text database speech data corresponding to the plurality of partial text data transmitted from the speech synthesis site and text data representing reading of the speech data, and the plurality of partial texts When the text data representing the reading of the voice data corresponding to the data is continuous, and the text data representing the continuous reading corresponds to a preset reading prohibition term, the voice corresponding to the partial text data Includes a content review section that replaces the data with predetermined audio data. Text-to-speech conversion service system which is characterized by having a blog site.
前記音声データの読みを表すテキストデータが前記音声データに電子透かしとして挿入されることを特徴とする請求項1記載のテキスト音声変換サービスシステム。   2. The text-to-speech conversion service system according to claim 1, wherein text data representing the reading of the voice data is inserted into the voice data as a digital watermark. テキストデータの受信に応答して、該テキストデータを音声データに変換し、該音声データと該音声データの読みを表すテキストデータとを送信する音声合成サイトと、
接続する端末から受信したテキストデータを格納するテキストデータベース、及び前記端末からの指示に応答して前記テキストデータから複数の部分テキストデータを抽出し、前記抽出した複数の部分テキストデータを前記音声合成サイトに送信し、前記音声合成サイトから送信された前記複数の部分テキストデータに対応する音声データと該音声データの読みを表すテキストデータとを音声テキストデータベースに格納する変換要求部を含むブログサイトと、
前記複数の部分テキストデータに対応する前記音声データの読みを表すテキストデータを連続させたとき、該連続させた読みを表すテキストデータが予め設定した読み上げ禁止用語に該当する場合に、前記部分テキストデータに対応する前記音声データを予め定めた音声データに置換する内容審査サイトを有することを特徴とするテキスト音声変換サービスシステム。
In response to receiving the text data, converting the text data into voice data and transmitting the voice data and text data representing the reading of the voice data;
A text database for storing text data received from a terminal to be connected, a plurality of partial text data is extracted from the text data in response to an instruction from the terminal, and the extracted plurality of partial text data is extracted from the speech synthesis site. A blog site including a conversion request unit that stores voice data corresponding to the plurality of partial text data transmitted from the voice synthesis site and text data representing the reading of the voice data in a voice text database;
When the text data representing the reading of the audio data corresponding to the plurality of partial text data is made continuous, the partial text data when the text data representing the continuous reading corresponds to a preset reading prohibition term A text-to-speech conversion service system comprising a content examination site for replacing the voice data corresponding to the above with predetermined voice data.
前記音声データの読みを表すテキストデータが前記音声データに電子透かしとして挿入されることを特徴とする請求項3記載のテキスト音声変換サービスシステム。   4. The text-to-speech conversion service system according to claim 3, wherein text data representing the reading of the voice data is inserted into the voice data as a digital watermark. 接続する端末からテキストデータを受信し、
前記端末からの指示に応答して前記テキストデータから複数の部分テキストデータを抽出し、
前記抽出した複数の部分テキストデータを音声データに変換し、
前記変換された音声データの読みを表すテキストデータを生成し、
前記複数の部分テキストデータに対応する前記音声データの読みを表すテキストデータを連続させたとき、該連続させた読みを表すテキストデータが予め設定した読み上げ禁止用語に該当する場合に、前記部分テキストデータに対応する前記音声データを予め定めた音声データに置換することを特徴とするテキスト音声変換サービス方法。
Receive text data from the connected device,
Extracting a plurality of partial text data from the text data in response to an instruction from the terminal;
Converting the extracted partial text data into voice data;
Generating text data representing the reading of the converted voice data;
When the text data representing the reading of the audio data corresponding to the plurality of partial text data is made continuous, the partial text data when the text data representing the continuous reading corresponds to a preset reading prohibition term A text-to-speech conversion service method, wherein the speech data corresponding to the above is replaced with predetermined speech data.
JP2007259847A 2007-10-03 2007-10-03 Text-to-speech conversion service system and method Pending JP2009086597A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007259847A JP2009086597A (en) 2007-10-03 2007-10-03 Text-to-speech conversion service system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007259847A JP2009086597A (en) 2007-10-03 2007-10-03 Text-to-speech conversion service system and method

Publications (1)

Publication Number Publication Date
JP2009086597A true JP2009086597A (en) 2009-04-23

Family

ID=40660043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007259847A Pending JP2009086597A (en) 2007-10-03 2007-10-03 Text-to-speech conversion service system and method

Country Status (1)

Country Link
JP (1) JP2009086597A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014199450A1 (en) * 2013-06-11 2014-12-18 株式会社東芝 Digital-watermark embedding device, digital-watermark embedding method, and digital-watermark embedding program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014199450A1 (en) * 2013-06-11 2014-12-18 株式会社東芝 Digital-watermark embedding device, digital-watermark embedding method, and digital-watermark embedding program
CN105283916A (en) * 2013-06-11 2016-01-27 株式会社东芝 Digital-watermark embedding device, digital-watermark embedding method, and digital-watermark embedding program
JPWO2014199450A1 (en) * 2013-06-11 2017-02-23 株式会社東芝 Digital watermark embedding apparatus, digital watermark embedding method, and digital watermark embedding program
US9881623B2 (en) 2013-06-11 2018-01-30 Kabushiki Kaisha Toshiba Digital watermark embedding device, digital watermark embedding method, and computer-readable recording medium

Similar Documents

Publication Publication Date Title
Baumann et al. The Spoken Wikipedia Corpus collection: Harvesting, alignment and an application to hyperlistening
US8849895B2 (en) Associating user selected content management directives with user selected ratings
US8712776B2 (en) Systems and methods for selective text to speech synthesis
CA2372544C (en) Information access method, information access system and program therefor
US8396714B2 (en) Systems and methods for concatenation of words in text to speech synthesis
US8352272B2 (en) Systems and methods for text to speech synthesis
US8352268B2 (en) Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8583418B2 (en) Systems and methods of detecting language and natural language strings for text to speech synthesis
US8355919B2 (en) Systems and methods for text normalization for text to speech synthesis
US20110153330A1 (en) System and method for rendering text synchronized audio
US20070214148A1 (en) Invoking content management directives
US20100082328A1 (en) Systems and methods for speech preprocessing in text to speech synthesis
US20070214485A1 (en) Podcasting content associated with a user account
US20100082327A1 (en) Systems and methods for mapping phonemes for text to speech synthesis
JP2000081892A (en) Device and method of adding sound effect
JP2001014306A (en) Method and device for electronic document processing, and recording medium where electronic document processing program is recorded
JP2013072957A (en) Document read-aloud support device, method and program
Tamminga Matched guise effects can be robust to speech style
JP2009140466A (en) Method and system for providing conversation dictionary services based on user created dialog data
JP6179971B2 (en) Information providing apparatus and information providing method
US20080243510A1 (en) Overlapping screen reading of non-sequential text
JPH10124293A (en) Speech commandable computer and medium for the same
JP2006236037A (en) Voice interaction content creation method, device, program and recording medium
Kotkar et al. An audio wiki for publishing user-generated content in the developing world
JP4515186B2 (en) Speech dictionary creation device, speech dictionary creation method, and program