TWI564881B - 用於具有編碼資訊之語音轉換之方法、系統及電腦程式產品 - Google Patents

用於具有編碼資訊之語音轉換之方法、系統及電腦程式產品 Download PDF

Info

Publication number
TWI564881B
TWI564881B TW101108733A TW101108733A TWI564881B TW I564881 B TWI564881 B TW I564881B TW 101108733 A TW101108733 A TW 101108733A TW 101108733 A TW101108733 A TW 101108733A TW I564881 B TWI564881 B TW I564881B
Authority
TW
Taiwan
Prior art keywords
speech
conversion
information
parameters
component
Prior art date
Application number
TW101108733A
Other languages
English (en)
Other versions
TW201246184A (en
Inventor
大衛 薛 班
倫 霍瑞
維 康斯
大衛 那漢莫
Original Assignee
萬國商業機器公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 萬國商業機器公司 filed Critical 萬國商業機器公司
Publication of TW201246184A publication Critical patent/TW201246184A/zh
Application granted granted Critical
Publication of TWI564881B publication Critical patent/TWI564881B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal

Description

用於具有編碼資訊之語音轉換之方法、系統及電腦程式產品
本發明係關於具有編碼資訊之語音轉換或語音變形之領域。詳言之,本發明係關於用於防止詐欺使用經修改語音之語音轉換。
語音轉換使得能夠修改來自一人之語音樣本,以使該等語音樣本聽起來似乎由其他人所說。存在兩種類型之轉換:
.修改語音,而無特定目標。舉例而言,將音高降低某個恆定量。
.修改語音,以便語音聽起來儘可能接近目標說話者。
存在語音轉換之許多用途。以下為一些實例:
.影片配音。此允許一演員在一影片中配出若干語音,且亦允許在維持原始演員語音之同時以不同語言進行配音。
.電信服務。各種服務允許呼叫者修改其語音。舉例而言,用兒童最喜愛之卡通角色語音或名人語音向其發送生日祝賀。
.玩具。語音轉換可用在遊戲及玩具中以用於產生各種語音。舉例而言,以鸚鵡語音重複向其所述語句之鸚鵡狀玩偶。
.音樂工業。諸如AUTO-TUNE(自動調諧)工具(AUTO-TUNE為Antares Audio Technologies之商標)之語音轉換工具已在音樂工業中非常流行。
.線上聊天。聊天文字及SMS(簡訊服務)可轉換成語音類似於發送者語音之語音。
.遊戲。此允許線上遊戲玩家用其線上化身之語音而非其自身語音說話。
.然而,在心術不正的人手中,語音轉換工具亦可被不適當地使用。不適當使用之實例包括以下內容:
.未經許可假冒另一個人。
.在執行非法行為時進行語音偽裝,以避免識別。
目前,通常可能區分自然語音與經轉換語音,且不可能完全模仿不同說話者。然而,隨著研究之進展,預計在幾年內,語音轉換系統之品質可能足夠高,而難以與自然語音區分且難以與仿冒說話者區分。
根據本發明之第一態樣,提供一種用於語音轉換之方法,其包含:用轉換參數轉換一源語音;用隱寫術將關於該等轉換參數之資訊編碼至一輸出語音中;其中該源語音可用該輸出語音及關於該等轉換參數之該資訊予以重建構。
根據本發明之第二態樣,提供一種用於重建構一語音轉換之方法,其包含:接收一語音轉換系統之一輸出語音,其中該輸出語音為已用隱寫術編碼有關於該等轉換參數之資訊的經轉換語音;提取關於該等轉換參數之該資訊;及執行該輸出語音之一逆轉換,以獲取一原始源語音之一近似物。
根據本發明之第三態樣,提供一種用於語音轉換之系統,其包含:一處理器;一語音轉換組件,其用於利用轉換參數轉換一源語音;及一隱寫術組件,其用於利用隱寫術將關於該等轉換參數之資訊編碼至一輸出語音中;其中該源語音可用該輸出語音及關於該等轉換參數之該資訊予以重建構。
根據本發明之第四態樣,提供一種用於重建構一語音轉換之系統,其包含:一處理器;一語音接收器,其用於接收一輸入語音,其中該輸入語音為已用隱寫術編碼有關於該等轉換參數之資訊之經轉換語音;一隱寫術解碼器組件,其用於解碼來自該輸入語音之關於該等轉換參數之該資訊;及一語音重建構組件,其用於執行該輸入語音之一逆轉換,以獲取一原始源語音之一近似物。
根據本發明之第五態樣,提供一種用於語音轉換之電腦程式產品,該電腦程式產品包含:一電腦可讀儲存媒體,其具有以其體現之電腦可讀程式碼,該電腦可讀程式碼包含:經組態以執行以下步驟之電腦可讀程式碼:用轉換參數轉換一源語音;及用隱寫術將關於該等轉換參數之資訊編碼至一輸出語音中;其中該源語音可用該輸出語音及關於該等轉換參數之該資訊予以重建構。
在說明書之總結部分中特別指出且清楚地主張被視為本發明之主題。可藉由參考結合隨附圖式一起閱讀的以下實施方式來最佳地理解本發明(關於組織及操作方法)以及其 目標、特徵及優點。
應瞭解,為了說明之簡單及清楚起見,圖中所示之元件未必係按比例畫出。舉例而言,為清晰起見,一些元件之尺寸可相對於其他元件誇大。另外,在視為適當處,可在諸圖中重複參考數字,以指示對應或類似之特徵。
在以下實施方式中,陳述了眾多特定細節以便提供對本發明之全面理解。然而,熟習此項技術者應理解,本發明可在沒有該等特定細節的情況下實行。在其他例子中,未描述熟知方法、程序及組件以免模糊本發明。
本文所使用之術語僅為了描述特定實施例,其並不意在限制本發明。如本文中所使用,單數形式「一」及「該」意欲亦包括複數形式,除非上下文另有清晰指示。應進一步理解,術語「包含」在用於本說明書中時指定所陳述之特徵、整數、步驟、操作、元件及/或組件之存在,但不排除一或多個其他特徵、整數、步驟、操作、元件、組件及/或其群組之存在或添加。
以下申請專利範圍中之所有手段或步驟加功能要素之對應結構、材料、動作及等效物意欲包括用於連同如具體所主張之其他所主張要素一起執行功能的任何結構、材料或動作。已呈現本發明之描述以用於達成說明及描述之目的,但其並不意欲為詳盡的或限於所揭示之形式的本發明。在不脫離本發明之範疇及精神之情況下,許多修改及變化對於一般熟習此項技術者將顯而易見。選擇並描述實施例以便最佳地解釋本發明之原理及實際應用,且使其他 一般熟習此項技術者能夠理解本發明之各種實施例,該等實施例具有適合於所設想之特定用途的各種修改。
描述了方法、系統及電腦程式產品,其中,將隱寫術或浮水印資料添加至經轉換語音,以便其可經識別且轉換回原始語音。添加隱寫資料至語音對於品質僅有較小影響,因此,系統之輸出仍可用於大多數一般應用。
轉換參數經由隱寫術而編碼至經轉換語音,以便可重建構原始語音。該等轉換參數可自經轉換語音擷取,且可用以藉由應用逆轉換來重建構原始語音。
在一實施例中,在語音轉換發生後,可用隱寫術添加該等轉換參數。
在另一實施例中,語音轉換系統可藉由在經轉換語音之該等參數之調變中編碼該等轉換參數而編碼該等轉換參數。
在一些狀況下,轉換不可倒轉。在此等狀況下,該等編碼轉換參數為在應用至經修改語音時應使其儘可能接近原始語音之彼等轉換參數。可編碼該等逆參數,而非編碼該等轉換參數本身。
若某人使用此犯下詐欺或犯罪行為(例如,在假冒不同人來呼叫銀行),則所記錄語音中之浮水印可被偵測到且可用以將經轉換語音倒轉回至原始語音(或其接近近似物)。隨後,此可用以追蹤或偵測使用者。
任何意欲避免某人可能在利用語音轉換系統之同時呼叫其之可能性的人可添加一系統,該系統偵測浮水印是否存 在且若浮水印存在於傳入語音中則發出警示。
參看圖1,流程圖100展示所述方法之第一實施例。接收101源語音,且藉由語音轉換系統執行語音轉換102。產生103經轉換語音。
語音轉換系統視不同可調節參數而定對輸入語音應用不同轉換。可調節參數之實例包括:音高修改參數、頻譜轉換矩陣、高斯混合(GMM)係數、加速/減速比率、雜訊位準修改參數等。該等參數可選自預設組態之一清單,可手動調節或可藉由比較源自兩種語音之語音樣本而自動訓練。
判定104用於語音轉換中之該等轉換參數,且產生105關於該等轉換參數之資訊。關於該等轉換參數之資訊可為以下參數中之一者:該等轉換參數本身、逆轉換參數、編碼或加密轉換參數或逆轉換參數,或轉換參數或逆轉換參數之近似值。
關於該等轉換參數之該資訊可包括儲存該等參數本身之遠端資料庫之索引。索引可允許自資料庫擷取該等參數。舉例而言,該等轉換參數可置於網站中,且彼等參數之統一資源定位器(URL)(例如,http://www....)可編碼至語音中。
關於該等轉換參數之資訊可包括來自語音轉換系統之量化轉換參數(或該等逆轉換參數),其以二進位形式編碼且亦可能壓縮及加密。接著可用隱寫術將二進位資料編碼至輸出語音中。
對經轉換語音應用106隱寫術方法以將關於該等轉換參數之資訊編碼至經轉換語音中。此係藉由組合作為隱寫術信號(作為隱藏資料或浮水印)之關於該等轉換參數之資訊與經轉換語音來完成,以產生輸出語音107。應用至音訊資料之隱寫術方法可在插入呈信號雜訊形式的資訊之簡單演算法至利用複雜信號處理技術來隱藏資訊之複雜演算法的範圍內變化。音訊隱寫術之一些實例包括LSB(最低有效位元)編碼、同位編碼、相位編碼、展頻及回聲隱藏(echo hiding)。
一些隱寫演算法藉由操縱不同語音參數而工作。彼等演算法可直接在語音轉換系統內操作,且此在參看圖2之所述方法之第二實施例中予以描述。
參看圖2,流程圖200展示如在語音轉換系統中執行之所述方法之實施例。接收201源語音,且模型化202源語音以獲取模型參數203。
產生204轉換參數,將轉換參數應用於該等模型參數以修改205源語音之該等模型參數。
如圖1之方法,可產生206關於該等轉換參數的資訊。關於該等轉換參數之資訊可為以下參數中之一者:該等轉換參數本身、逆轉換參數、編碼或加密轉換參數或逆轉換參數,或轉換參數或逆轉換參數之近似值。關於該等轉換參數之資訊可包括來自語音轉換系統之量化轉換參數(或逆轉換參數),其以二進位形式編碼且亦可能壓縮及加密。該等轉換參數可儲存於資料庫中,且關於該等轉換參數之 資訊可為允許自資料庫擷取該等轉換參數之索引。
藉由在經修改模型參數內編碼207而將關於該等轉換參數之資訊應用於隱寫術方法中。接著將編碼的經修改模型參數應用208於最終語音合成中,且產生輸出語音209。
在第二實施例中,將該等編碼的轉換係數與經轉換語音參數組合。舉例而言,該等係數可編碼為最終語音之經修改音高曲線上之小變化。
舉例而言,可藉由語音轉換系統將轉換資料編碼至音高曲線中。語音轉換系統通常控制輸出信號之音高曲線。通常針對每一短訊框(5-20毫秒)調整音高。可對於訊框n取以赫茲為單位之整數音高p n且最後一個位元以資料d n之位元替換:
接著,用新音高p' n而非p n合成輸出語音信號。該效應實際上係人耳聽不見的,但使得能夠編碼1位元/訊框。為了自輸出語音提取資料,將音高偵測器應用於音訊,以便計算音高曲線,且接著提取來自每一訊框之音高值之最後一個位元。
參看圖3,流程圖300展示所述重建構語音轉換的方法之實施例。
接收301經轉換語音,且偵測302浮水印或其他隱寫資料之存在。在偵測到隱寫資料時可發出303警示,以警示接 收器經接收語音為經轉換語音且且並非原始語音之事實。
解碼304隱寫資料,且提取305關於該等轉換參數之資訊。若關於該等轉換參數之資訊為儲存於其他地方之轉換參數的索引,則擷取該等轉換參數。將關於該等轉換參數之資訊應用於逆轉換306經接收之語音,以獲取307儘可能接近原始語音的語音。
藉由隱寫術編碼之關於該等轉換參數之一些或所有資訊亦可藉由文獻中已知之各種密碼予以加密。這樣,僅彼等可存取解密密鑰之人(例如,執法機構)可解密關於該等轉換參數之資訊且將語音轉換回原始語音。
該系統可編碼該等逆參數,而非編碼該等轉換參數。若轉換係不可逆的(例如,樣本率降低),則該系統可編碼將經轉換語音儘可能恢復至原始語音之該等參數。
通常藉由找到最佳參數之最佳化程序計算語音轉換參數集,該等最佳參數在應用至源語音樣本集時將使其聽起來儘可能接近目標樣本集。彼等參數中的一些具有簡單反轉。舉例而言,若為了從源達到目的地,音高增加了△p,則為了逆轉該程序,應使音高降低△p。然而,由於合成程序不是線性的,且由於一些參數係基於源信號而動態地選擇,因而倒轉該程序並不總是容易的。
用於所述方法中之一個實施例訓練將經合成語音最佳地轉換成源語音之新逆語音轉換參數集,且在經轉換語音內編碼彼等參數。
參看圖4,流程圖400展示訓練逆參數之方法。源語音 401及目標語音402用作輸入,以訓練403轉換參數404。利用該等經訓練轉換參數404轉換405源語音401,以輸出經轉換語音406。
可藉由輸入經轉換語音406及源語音401以訓練409逆參數410來訓練該等逆參數。該等經訓練逆參數可用以重建構經轉換語音,以儘可能接近源語音。
參看圖5,方塊圖展示所述系統500之第一實施例。提供一系統500,其包括用於接收待由語音轉換組件510處理之源語音502的語音接收器501,語音轉換組件510利用轉換參數511來提供經轉換語音512。
可提供轉換參數編譯組件520,其將該等轉換參數511編譯至待編碼之資訊521。轉換參數編譯組件520可包括:量化組件522,其用於量化該等參數;二進位串流組件523,其用於將該等量化參數轉換成二進位串流;壓縮組件524,其用於壓縮資訊;及加密組件525,其用於加密資訊。轉換參數編譯組件520亦可包括逆參數訓練組件526,其用於提供來自輸入語音及經轉換語音之逆轉換參數。轉換參數編譯組件520可包括索引組件527,其用於索引待編碼之資訊521中之遠端儲存轉換參數。
提供隱寫術組件530以用於將關於該等轉換參數之資訊521編碼至經轉換語音512中,以產生編碼的轉換語音531。可提供語音輸出組件540以用於輸出具有編碼的轉換參數資訊之經轉換語音。
參看圖6,方塊圖展示整合於語音轉換系統600中之所述 系統之第二實施例。
語音轉換系統600可包括用於接收待處理之源語音602之語音接收器601。提供語音模型化組件603,其產生源語音602之模型參數604。轉換參數組件605產生待使用之轉換參數606。可提供參數修改組件607以用於將該等轉換參數606應用於該等模型參數604,以獲取經修改模型參數608。
可提供轉換參數編譯組件620,其將該等轉換參數606編譯至待編碼之資訊621中。編譯組件620可包括關於圖5之編譯組件520所述之組件中的一或多者。
提供隱寫術組件630以用於將資訊621編碼至經修改模型參數608中,以產生編碼的經修改模型參數631。
可提供語音合成組件640以用於藉由編碼的經修改模型參數631合成源語音以產生編碼轉換語音641。提供語音輸出組件650以用於輸出呈具有編碼轉換參數資訊之經轉換語音之形式的語音輸出。
參看圖7,方塊圖展示用於自經轉換語音重建構源語音之重建構系統700。提供語音接收器701以用於接收輸入語音。可提供偵測組件702以偵測輸入語音是否包括隱寫術信號。可提供警示組件703以在偵測到隱寫術信號的情況下發出警示,以通知使用者該輸入語音不是原始語音。
可提供隱寫術解碼器組件710以提取關於該等轉換參數之編碼資訊。解碼器組件710可包括用於在編碼資訊被加密時解密編碼資訊之解密組件711。可提供參數重建構組 件720以自編碼資訊重建構該等轉換參數或逆轉換參數。參數重建構組件720可自遠端位置擷取有索引的轉換參數。
可提供語音重建構組件730以重建構源語音或重建構儘可能接近原始源語音之語音。可提供輸出組件740以輸出經重建構語音。
參看圖8,用於實施本發明之態樣之例示性系統包括適用於儲存及/或執行程式碼之資料處理系統800,資料處理系統800包括經由匯流排系統803直接或間接耦接至記憶體元件之至少一處理器801。該等記憶體元件可包括在程式碼之實際執行期間使用之本端記憶體、大容量儲存器及提供至少一些程式碼之暫時儲存以便減少在執行期間必須自大容量儲存器擷取程式碼之次數的快取記憶體。
該等記憶體元件可包括呈唯讀記憶體(ROM)804及隨機存取記憶體(RAM)805之形式之系統記憶體802。基本輸入輸出系統(BIOS)806可儲存於ROM 804中。系統軟體807可儲存於包括作業系統軟體808之RAM 805中。軟體應用程式810亦可儲存於RAM 805中。
系統800亦可包括主儲存構件811(諸如,硬磁碟機)及輔助儲存構件812(諸如,磁碟機及光碟機)。該等(磁/光)碟機及其相關聯電腦可讀媒體提供電腦可執行指令、資料結構、程式模組及用於系統800之其他資料之非揮發性儲存器。軟體應用程式可儲存於主儲存構件811及輔助儲存構件812以及系統記憶體802上。
計算系統800可經由網路配接器816利用至一或多個遠端電腦之邏輯連接而在網路環境中操作。
輸入/輸出器件813可直接或經由介入的I/O控制器而耦接至系統。使用者可經由諸如鍵盤、指標器件或其他輸入器件(例如,麥克風、操縱桿、遊戲台、圓盤式衛星電視天線、掃描器或其類似者)之輸入器件將命令及資訊鍵入至系統800中。輸出器件可包括揚聲器、印表機等。顯示器件814亦經由諸如視訊配接器815之介面連接至系統匯流排803。
具有以上組件之語音轉換系統可作為一項服務提供至網路上之顧客。偵測經轉換語音及轉換回原始語音亦可作為一項服務提供至網路上之顧客。
如熟習此項技術者將瞭解,本發明之態樣可體現為系統、方法或電腦程式產品。相應地,本發明之態樣可採用完全硬體實施例、完全軟體實施例(包括韌體、常駐軟體、微碼等)或組合軟體與硬體態樣之實施例的形式,該等實施例在本文中皆可通稱為「電路」、「模組」或「系統」。此外,本發明之態樣可採用體現於一或多個電腦可讀媒體中之電腦程式產品之形式,該一或多個電腦可讀媒體上具有體現於其上的電腦可讀程式碼。
可利用一或多個電腦可讀媒體之任何組合。電腦可讀媒體可為電腦可讀信號媒體或電腦可讀儲存媒體。舉例而言,電腦可讀儲存媒體可為(但不限於)電子、磁性、光學、電磁、紅外線或半導體系統、裝置或器件,或前述系 統、裝置或器件的任何合適組合。電腦可讀儲存媒體之更特定實例(非詳盡清單)將包括以下各者:具有一或多個導線之電連接、攜帶型電腦磁片、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除可程式化唯讀記憶體(EPROM或快閃記憶體)、光纖、攜帶型光碟唯讀記憶體(CD-ROM)、光學儲存器件、磁性儲存器件,或前述各者之任何合適組合。在本文件之上下文中,電腦可讀儲存媒體可為可含有或儲存供指令執行系統、裝置或器件使用或結合指令執行系統、裝置或器件而使用之程式的任何有形媒體。
電腦可讀信號媒體可包括經傳播之資料信號,該經傳播之資料信號具有體現於其中(例如,在基頻中或作為載波之部分)之電腦可讀程式碼。此傳播信號可採取各種形式中的任一者,包括(但不限於)電磁、光學或其任何合適組合。電腦可讀信號媒體可為並非電腦可讀儲存媒體且可傳達、傳播或傳送供指令執行系統、裝置或器件使用或結合指令執行系統、裝置或器件而使用之程式的任何電腦可讀媒體。
可使用任何適當媒體來傳輸體現於電腦可讀媒體上之程式碼,適當媒體包括(但不限於)無線、有線、光纖纜線、RF等或前述各者之任何合適組合。
可以一或多種程式設計語言之任何組合來撰寫用於執行本發明之態樣之操作的電腦程式碼,該一或多種程式設計語言包括諸如Java、Smalltalk、C++或其類似者之物件導 向式程式設計語言及諸如「C」程式設計語言或類似程式設計語言之習知程序性程式設計語言。程式碼可完全在使用者之電腦上執行,部分地在使用者之電腦上執行,作為獨立套裝軟體而執行,部分地在使用者之電腦上執行且部分地在遠端電腦上執行,或完全在遠端電腦或伺服器上執行。在後一種情形中,遠端電腦可經由任何類型之網路(包括區域網路(LAN)或廣域網路(WAN))而連接至使用者之電腦,或可(例如,使用網際網路服務提供者,經由網際網路)建立至外部電腦的連接。
上文參考根據本發明之實施例之方法、裝置(系統)及電腦程式產品的流程圖說明及/或方塊圖來描述本發明之態樣。應理解,可藉由電腦程式指令來實施該等流程圖說明及/或方塊圖之每一區塊及該等流程圖說明及/或方塊圖中之區塊的組合。可將此等電腦程式指令提供至通用電腦、專用電腦或其他可程式化資料處理裝置之處理器以產生一機器,以使得經由該電腦或其他可程式化資料處理裝置之處理器而執行之指令產生用於實施在流程圖及/或方塊圖的該或該等區塊中所指定之功能/動作之構件。
亦可將此等電腦程式指令儲存於一電腦可讀媒體中,其可引導電腦、其他可程式化資料處理裝置或其他器件以特定方式發揮作用,使得儲存於該電腦可讀媒體中之指令產生一製品,該製品包括實施在流程圖及/或方塊圖的該或該等區塊中所指定之功能/動作的指令。
亦可將該等電腦程式指令載入至電腦、其他可程式化資 料處理裝置或其他器件上,以使一系列操作步驟在該電腦、其他可程式化裝置或其他器件上執行以產生一電腦實施程序,使得在該電腦或其他可程式化裝置上執行之指令提供用於實施在流程圖及/或方塊圖的該或該等區塊中所指定之功能/動作的程序。
圖中之流程圖及方塊圖說明根據本發明之各種實施例之系統、方法及電腦程式產品之可能實施的架構、功能性及操作。就此而言,流程圖或方塊圖中之每一區塊可表示程式碼之一模組、區段或部分,其包含用於實施指定之邏輯功能的一或多個可執行指令。亦應注意,在一些替代實施中,區塊中所提到之功能可不以諸圖中所提到之次序發生。舉例而言,取決於所涉及之功能性,連續展示之兩個區塊實際上可實質上同時執行,或該等區塊有時可以相反次序執行。亦應注意,可藉由執行指定之功能或動作的基於專用硬體之系統或專用硬體及電腦指令之組合來實施方塊圖及/或流程圖說明之每一區塊及方塊圖及/或流程圖說明中之區塊的組合。
100‧‧‧流程圖
200‧‧‧流程圖
300‧‧‧流程圖
400‧‧‧流程圖
500‧‧‧系統
501‧‧‧語音接收器
502‧‧‧源語音
510‧‧‧語音轉換組件
511‧‧‧轉換參數
512‧‧‧經轉換語音
520‧‧‧轉換參數編譯組件
521‧‧‧關於轉換參數之資訊
522‧‧‧量化組件
523‧‧‧二進位串流組件
524‧‧‧壓縮組件
525‧‧‧加密組件
526‧‧‧逆參數訓練組件
527‧‧‧索引組件
530‧‧‧隱寫術組件
531‧‧‧編碼轉換語音
540‧‧‧語音輸出組件
600‧‧‧語音轉換系統
601‧‧‧語音接收器
602‧‧‧源語音
603‧‧‧語音模型化組件
604‧‧‧模型參數
605‧‧‧轉換參數組件
606‧‧‧轉換參數
607‧‧‧參數修改組件
608‧‧‧經修改模型參數
620‧‧‧轉換參數編譯組件
621‧‧‧關於轉換參數之資訊
630‧‧‧隱寫術組件
631‧‧‧編碼的經修改模型參數
640‧‧‧語音合成組件
641‧‧‧編碼轉換語音
650‧‧‧語音輸出組件
700‧‧‧重建構系統
701‧‧‧語音接收器
702‧‧‧偵測組件
703‧‧‧警示組件
710‧‧‧隱寫術解碼器組件
711‧‧‧解密組件
720‧‧‧參數重建構組件
730‧‧‧語音重建構組件
740‧‧‧輸出組件
800‧‧‧資料處理系統
801‧‧‧處理器
802‧‧‧系統記憶體
803‧‧‧匯流排系統
804‧‧‧唯讀記憶體(ROM)
805‧‧‧隨機存取記憶體(RAM)
806‧‧‧基本輸入輸出系統(BIOS)
807‧‧‧系統軟體
808‧‧‧作業系統軟體
810‧‧‧軟體應用程式
811‧‧‧主儲存構件
812‧‧‧輔助儲存構件
813‧‧‧輸入/輸出(I/O)器件
814‧‧‧顯示器件
815‧‧‧視訊配接器
816‧‧‧網路配接器
圖1為根據本發明之語音轉換方法之第一實施例的流程圖;圖2為根據本發明之語音轉換方法之第二實施例的流程圖;圖3為根據本發明之重建構語音轉換的方法之一實施例的流程圖; 圖4為根據本發明之重建構語音轉換的方法之一態樣的流程圖;圖5為根據本發明之系統之第一實施例的方塊圖;圖6為根據本發明之系統之第二實施例的方塊圖;圖7為根據本發明之一態樣之語音重建構系統的方塊圖;及圖8為可實施本發明之電腦系統之方塊圖。
100‧‧‧流程圖

Claims (16)

  1. 一種用於語音轉換之方法,其包含:用轉換參數轉換一人之一源語音,其中該等轉換包括修改該源語音以使該源語音聽起來似乎由其他人所說;用隱寫術將關於該等轉換參數之資訊編碼至一輸出語音中;其中該源語音可用該輸出語音及關於該等轉換參數之該資訊予以重建構。
  2. 如請求項1之方法,其中編碼關於該等轉換參數之資訊包括:在該轉換步驟後,藉由組合包括關於該等轉換參數之該資訊之一隱寫信號及該經轉換語音而將該資訊編碼至該經轉換語音中,以產生該輸出語音,或在轉換該輸入語音期間,藉由組合關於該等轉換參數之該資訊與經轉換語音參數而編碼該資訊。
  3. 如請求項1之方法,其中關於該等轉換參數之該資訊可用以將該輸出語音重建構成該源語音之一接近近似物,且其中關於該等轉換參數之該資訊包括以下參數之群中之一者:該等轉換參數、逆轉換參數、壓縮或加密轉換參數或逆轉換參數、該等轉換參數或逆轉換參數之一近似值、來自一源語音及該經轉換語音之一經訓練逆轉換參數集、遠端儲存之轉換參數或逆轉換參數之一索引。
  4. 如請求項1之方法,其包括:編譯關於該等轉換參數之該資訊,包括: 量化該等轉換參數;及將該等量化轉換參數轉化為一個二進位串流,或藉由訓練用以將一經轉換語音轉化為一源語音的逆參數而編譯關於該等轉換參數之該資訊。
  5. 如請求項1之方法,其包括:將該等轉換參數或逆轉換參數儲存於一遠端位置;及編譯關於該等轉換參數之該資訊包括提供至該遠端儲存器的一索引。
  6. 一種用於重建構一語音轉換之方法,其包含:接收一語音轉換系統之一輸出語音,其中該等輸出語音為一人之一源語音且該源語音被轉換以聽起來似乎由其他人所說,其中該輸出語音包括用隱寫術編碼有關於該等轉換參數之資訊之經轉換語音;提取關於該等轉換參數之該資訊;及執行該輸出語音之一逆轉換,以獲取該源語音之一近似物。
  7. 如請求項6之方法,其包括:偵測該接收之輸出語音中之該編碼資訊;及發出該接收之輸出語音係經轉換語音之一警示。
  8. 如請求項6之方法,其中提取關於該等轉換參數之該資訊提取加密資訊,且該方法包括:用一解密密鑰解密關於該等轉換參數之該加密資訊。
  9. 一種用於語音轉換之系統,其包含:一處理器; 一語音轉換組件,其用於用轉換參數轉換一人之一源語音,其中該等轉換包括修改該源語音以使該源語音聽起來似乎由其他人所說;及一隱寫術組件,其用於用隱寫術將關於該等轉換參數之資訊編碼至一輸出語音中;其中該源語音可用該輸出語音及關於該等轉換參數之該資訊予以重建構。
  10. 如請求項9之系統,其中該隱寫術組件藉由組合包括關於該等轉換參數之該資訊之一隱寫信號及該經轉換語音而將該資訊編碼至該語音轉換組件之該輸出,以產生該輸出語音,或其中該隱寫術組件整合於該語音轉換組件中,且在轉換該輸入語音期間藉由組合關於該等轉換參數之該資訊與該等經轉換語音參數而編碼該資訊,且其中該語音轉換組件包括一轉換參數組件,該轉換參數組件將轉換參數提供至一參數修改組件及該隱寫術組件。
  11. 如請求項9之系統,其包括一編譯組件,其用於編譯關於該等轉換參數之該資訊,該編譯組件包括:一量化組件,其用於量化該等轉換參數;及一個二進位串流組件,其用於將該等量化轉換參數轉化為一個二進位串流,或一編譯組件,其用於藉由訓練用以將一經轉換語音轉化為一源語音的逆參數而編譯關於該等轉換參數之該資 訊,或一編譯組件,其用於藉由將該等轉換參數或逆轉換參數儲存於一遠端位置及提供至該遠端儲存器的一索引而編譯關於該等轉換參數之該資訊。
  12. 如請求項9之系統,其中關於該等轉換參數之該資訊包括以下參數之群中之一者:該等轉換參數、該等逆轉換參數、編碼或加密轉換參數或逆轉換參數、該等轉換參數或逆轉換參數之一近似值、來自一源語音及該經轉換語音之一經訓練逆轉換參數集、遠端儲存之轉換參數或逆轉換參數之一索引。
  13. 一種用於重建構一語音轉換之系統,其包含:一處理器;一語音接收器,其用於接收一輸入語音,其中該等輸出語音為一人之一源語音且該源語音被轉換以聽起來似乎由其他人所說,其中該輸入語音包括用隱寫術編碼有關於該等轉換參數之資訊之經轉換語音;一隱寫術解碼器組件,其用於解碼來自該輸入語音之關於該等轉換參數之該資訊;及一語音重建構組件,其用於執行該輸入語音之一逆轉換,以獲取該源語音之一近似物。
  14. 如請求項13之系統,其包括:一偵測組件,其用於偵測該接收之輸出語音中之該編碼資訊;及一警示組件,其用於發出該接收之輸出語音係經轉換 語音之一警示。
  15. 如請求項13之系統,其中該隱寫術解碼器組件包括一解密組件,該解密組件用於利用一解密密鑰解密關於該等轉換參數之該加密資訊。
  16. 一種用於語音轉換之電腦程式產品,該電腦程式產品包含:一電腦可讀儲存媒體,其具有以其體現之電腦可讀程式碼,該電腦可讀程式碼包含:經組態以執行以下步驟的電腦可讀程式碼:用轉換參數轉換一人之一源語音,其中該等轉換包括修改該源語音以使該源語音聽起來似乎由其他人所說;及用隱寫術將關於該等轉換參數之資訊編碼至一輸出語音中;其中該源語音可用關於該輸出語音及該等轉換參數之該資訊予以重建構。
TW101108733A 2011-03-17 2012-03-14 用於具有編碼資訊之語音轉換之方法、系統及電腦程式產品 TWI564881B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US13/049,924 US8930182B2 (en) 2011-03-17 2011-03-17 Voice transformation with encoded information

Publications (2)

Publication Number Publication Date
TW201246184A TW201246184A (en) 2012-11-16
TWI564881B true TWI564881B (zh) 2017-01-01

Family

ID=46829174

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101108733A TWI564881B (zh) 2011-03-17 2012-03-14 用於具有編碼資訊之語音轉換之方法、系統及電腦程式產品

Country Status (7)

Country Link
US (1) US8930182B2 (zh)
JP (1) JP5936236B2 (zh)
CN (1) CN103430234B (zh)
DE (1) DE112012000698B4 (zh)
GB (1) GB2506278B (zh)
TW (1) TWI564881B (zh)
WO (1) WO2012123897A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110313762A1 (en) * 2010-06-20 2011-12-22 International Business Machines Corporation Speech output with confidence indication
US9711134B2 (en) * 2011-11-21 2017-07-18 Empire Technology Development Llc Audio interface
US9443271B2 (en) * 2012-08-15 2016-09-13 Imvu, Inc. System and method for increasing clarity and expressiveness in network communications
US10116598B2 (en) 2012-08-15 2018-10-30 Imvu, Inc. System and method for increasing clarity and expressiveness in network communications
US9425974B2 (en) 2012-08-15 2016-08-23 Imvu, Inc. System and method for increasing clarity and expressiveness in network communications
CN102916803B (zh) * 2012-10-30 2015-06-10 山东省计算中心 基于公用电话交换网的文件隐传方法
CN104954542B (zh) * 2014-03-28 2019-01-15 联想(北京)有限公司 一种信息处理方法及第一电子设备
US10178219B1 (en) 2017-06-21 2019-01-08 Motorola Solutions, Inc. Methods and systems for delivering a voice message
JP2020056907A (ja) * 2018-10-02 2020-04-09 株式会社Tarvo クラウド音声変換システム
US20210192019A1 (en) * 2019-12-18 2021-06-24 Booz Allen Hamilton Inc. System and method for digital steganography purification
WO2021120145A1 (zh) * 2019-12-20 2021-06-24 深圳市优必选科技股份有限公司 语音转换方法、装置、计算机设备及计算机可读存储介质
TWI790718B (zh) * 2021-08-19 2023-01-21 宏碁股份有限公司 會議終端及用於會議的回音消除方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040068399A1 (en) * 2002-10-04 2004-04-08 Heping Ding Method and apparatus for transmitting an audio stream having additional payload in a hidden sub-channel
US20090177742A1 (en) * 1999-05-19 2009-07-09 Rhoads Geoffrey B Methods and Systems Employing Digital Content

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4278837A (en) * 1977-10-31 1981-07-14 Best Robert M Crypto microprocessor for executing enciphered programs
US4882751A (en) * 1986-10-31 1989-11-21 Motorola, Inc. Secure trunked communications system
US5091941A (en) * 1990-10-31 1992-02-25 Rose Communications, Inc. Secure voice data transmission system
BR9203471A (pt) * 1991-09-06 1993-04-13 Motorola Inc Sistema de comunicacoes em fio,e processo para capacitar modo de demonstracao de embaralhamento em dispositivo de comunicacoes
US5822436A (en) * 1996-04-25 1998-10-13 Digimarc Corporation Photographic products and methods employing embedded information
US20030040326A1 (en) * 1996-04-25 2003-02-27 Levy Kenneth L. Wireless methods and devices employing steganography
JPH11190996A (ja) * 1997-08-15 1999-07-13 Shingo Igarashi 合成音声判別システム
JP3986150B2 (ja) * 1998-01-27 2007-10-03 興和株式会社 一次元データへの電子透かし
CA2400947A1 (en) 2000-03-06 2001-09-13 Thomas W. Meyer Data embedding in digital telephone signals
EP1213912A3 (en) 2000-12-07 2005-02-02 Sony United Kingdom Limited Methods and apparatus for embedding data and for detecting and recovering embedded data
JP2002297199A (ja) * 2001-03-29 2002-10-11 Toshiba Corp 合成音声判別方法と装置及び音声合成装置
US20020168089A1 (en) 2001-05-12 2002-11-14 International Business Machines Corporation Method and apparatus for providing authentication of a rendered realization
US20030149881A1 (en) * 2002-01-31 2003-08-07 Digital Security Inc. Apparatus and method for securing information transmitted on computer networks
US7310596B2 (en) * 2002-02-04 2007-12-18 Fujitsu Limited Method and system for embedding and extracting data from encoded voice code
KR100595202B1 (ko) * 2003-12-27 2006-06-30 엘지전자 주식회사 디지털 오디오 워터마크 삽입/검출 장치 및 방법
CN100440314C (zh) * 2004-07-06 2008-12-03 中国科学院自动化研究所 基于语音分析与合成的高品质实时变声方法
CN1811911B (zh) * 2005-01-28 2010-06-23 北京捷通华声语音技术有限公司 自适应的语音变换处理方法
US8452604B2 (en) * 2005-08-15 2013-05-28 At&T Intellectual Property I, L.P. Systems, methods and computer program products providing signed visual and/or audio records for digital distribution using patterned recognizable artifacts
DE102006041509A1 (de) 2005-08-30 2007-03-15 Technische Universität Dresden Verfahren zur Stimmenkonvertierung bei der Sprachdekodierung und Sprachsynthese
BRPI0709877B1 (pt) 2006-04-04 2019-12-31 Dolby Laboratories Licensing Corp método e aparelho para controlar uma característica de intensidade acústica particular de um sinal de áudio
DE102007007627A1 (de) * 2006-09-15 2008-03-27 Rwth Aachen Steganographie in digitalen Signal-Codierern
EP2958106B1 (en) 2006-10-11 2018-07-18 The Nielsen Company (US), LLC Methods and apparatus for embedding codes in compressed audio data streams
CN101101754B (zh) * 2007-06-25 2011-09-21 中山大学 一种基于傅立叶离散对数坐标变换的稳健音频水印方法
JP5038995B2 (ja) 2008-08-25 2012-10-03 株式会社東芝 声質変換装置及び方法、音声合成装置及び方法
WO2010025546A1 (en) 2008-09-03 2010-03-11 4473574 Canada Inc. Apparatus, method, and system for digital content and access protection
JP2010087865A (ja) * 2008-09-30 2010-04-15 Yamaha Corp 信号加工装置および信号復元装置
US8762149B2 (en) * 2008-12-10 2014-06-24 Marta Sánchez Asenjo Method for verifying the identity of a speaker and related computer readable medium and computer
CN101441870A (zh) * 2008-12-18 2009-05-27 西南交通大学 一种基于离散分数变换的鲁棒数字音频水印方法
US20120046948A1 (en) * 2010-08-23 2012-02-23 Leddy Patrick J Method and apparatus for generating and distributing custom voice recordings of printed text

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090177742A1 (en) * 1999-05-19 2009-07-09 Rhoads Geoffrey B Methods and Systems Employing Digital Content
US20040068399A1 (en) * 2002-10-04 2004-04-08 Heping Ding Method and apparatus for transmitting an audio stream having additional payload in a hidden sub-channel

Also Published As

Publication number Publication date
DE112012000698B4 (de) 2019-04-18
JP5936236B2 (ja) 2016-06-22
JP2014511154A (ja) 2014-05-12
TW201246184A (en) 2012-11-16
GB2506278B (en) 2019-03-13
US20120239387A1 (en) 2012-09-20
DE112012000698T5 (de) 2013-11-14
CN103430234A (zh) 2013-12-04
US8930182B2 (en) 2015-01-06
GB2506278A (en) 2014-03-26
GB201316988D0 (en) 2013-11-06
WO2012123897A1 (en) 2012-09-20
CN103430234B (zh) 2015-06-10

Similar Documents

Publication Publication Date Title
TWI564881B (zh) 用於具有編碼資訊之語音轉換之方法、系統及電腦程式產品
Djebbar et al. Comparative study of digital audio steganography techniques
TWI581250B (zh) 利用多媒體處理節點之適應性處理技術
CN109147805B (zh) 基于深度学习的音频音质增强
TW200947422A (en) Systems, methods, and apparatus for context suppression using receivers
CN104112450A (zh) 音频编码器,音频解码器,编码与解码音频信号的方法及音频设备
JP2004531761A (ja) 部分暗号化を用いるオーディオ符号化
CN103985389B (zh) 一种针对amr音频文件的隐写分析方法
Kreuk et al. Hide and speak: Towards deep neural networks for speech steganography
Kanhe et al. Robust image-in-audio watermarking technique based on DCT-SVD transform
CN112164407A (zh) 音色转换方法及装置
Ghasemzadeh Multi-layer architecture for efficient steganalysis of UnderMp3Cover in multi-encoder scenario
Mandal et al. An approach for enhancing message security in audio steganography
WO2014203370A1 (ja) 音声合成辞書作成装置及び音声合成辞書作成方法
EP3274990A1 (en) Method and apparatus for embedding and regaining watermarks in an ambisonics representation of a sound field
Wei et al. Controlling bitrate steganography on AAC audio
Hua et al. Improving spoofing capability for end-to-end any-to-many voice conversion
Liu et al. Detecting Voice Cloning Attacks via Timbre Watermarking
Wu et al. Comparison of two speech content authentication approaches
JP2003099077A (ja) 電子透かし埋込装置、抽出装置及び方法
Kirbiz et al. Decode-time forensic watermarking of AAC bitstreams
Jameel et al. A robust secure speech communication system using ITU-T G. 723.1 and TMS320C6711 DSP
Tayan et al. Authenticating sensitive speech-recitation in distance-learning applications using real-time audio watermarking
Su et al. Message-Driven Generative Music Steganography Using MIDI-GAN
Dong et al. Robustness analysis of a digital audio steganographic method based on phase manipulation