CN105592067B - 语音信号处理方法及实现此的终端和服务器 - Google Patents

语音信号处理方法及实现此的终端和服务器 Download PDF

Info

Publication number
CN105592067B
CN105592067B CN201510756263.XA CN201510756263A CN105592067B CN 105592067 B CN105592067 B CN 105592067B CN 201510756263 A CN201510756263 A CN 201510756263A CN 105592067 B CN105592067 B CN 105592067B
Authority
CN
China
Prior art keywords
information
voice signal
server
terminal
interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510756263.XA
Other languages
English (en)
Other versions
CN105592067A (zh
Inventor
金兑润
金想荷
金成洙
李振湜
韩昌玗
金银璟
李在原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020150152525A external-priority patent/KR102536944B1/ko
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Priority to CN202010629273.8A priority Critical patent/CN111787012B/zh
Publication of CN105592067A publication Critical patent/CN105592067A/zh
Application granted granted Critical
Publication of CN105592067B publication Critical patent/CN105592067B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0407Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the identity of one or more communicating identities is hidden
    • H04L63/0421Anonymous communication, i.e. the party's identifiers are hidden from the other party or parties, e.g. using an anonymizer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Abstract

本发明公开一种语音信号处理方法及实现此的终端和服务器,包括如下步骤:接收语音信号;检测出所述语音信号中包含个人信息的私密化信息区间;针对所述语音信号中对应于所述私密化信息区间的语音信号,利用基于所述个人信息而生成的私密化模型而进行数据处理;从服务器接收针对与作为所述私密化信息区间以外的区间的一般信息区间相对应的语音信号进行数据处理的结果。

Description

语音信号处理方法及实现此的终端和服务器
技术领域
本发明涉及一种信号处理方法及装置,具体而言,涉及一种可利用私密化模型而保护个人信息的同时确保通信的迅捷性的语音信号处理方法及实现此的终端和服务器。
背景技术
语音识别(speech recognition)是接收用户语音的输入并将其转换为文字的技术。因为这些过程是自动执行的,因此还可以将其称之为自动语音识别(Automatic SpeechRecognition,以下简称为ASR)。近来,其作为在智能手机或者TV等设备中代替键盘输入的接口技术而广为流传。语言理解(Natural Language Understanding,以下简称为NLU)是从语音识别的识别结果中提取用户的话语的含义的技术。其并不是单纯地识别用户的语音,而是执行高水准的用户语音分析,从而可以进一步精确地掌握语音的含义。
这种语音识别以及语音理解系统一般可以分为接收语音信号的客户端(client)和由语音信号执行语音识别以及语言理解的语音识别及语言理解引擎(ASR/NLU engine),而且为提高语音信号处理速度,两个模块可以相互分离地设计。在此情况下,处理能力和数据存储能力有限的智能手机或者TV等设备可以配备为客户端,语音识别及语言理解引擎可以配备为具有较高的运算能力的独立的服务器形式,而且该两种模块通过网络形成连接。位于与用户较近的位置的设备执行接收语音信号的作用,数据处理速度较快的服务器执行语音识别以及语言理解的作用。作为其他形态,还可以配备有如下的构造:除了服务器以外,还在设备内部安装语音识别及语言理解引擎,从而使语音识别以及语言理解这两方面的引擎可以相互协助而执行语音识别以及语言理解。
作为用于提高这种语音识别及语言理解系统的性能的方法之一,存在一种按用户分别收集数据而生成按用户模型的方法。所述按用户模型称为私密化模型(personalizedmodel),而相应的方法称为私密化建模(personalized modeling)。私密化模型可以生成对应于特定的个人的匹配型模型,因此与为了非特定的多数而制作的一般模型相比而言通常具有更高的性能。
然而,在利用私密化模型的情况下,为了生成私密化模型而需要利用到用户的个人信息,然而在个人信息的传输以及处理过程中可能会发生信息保护问题,如果为了解决这种问题而应用加密技术,则可能会发生处理速度变慢的问题。
发明内容
本发明公开的实施例的目的在于提供一种利用私密化模型而保护个人信息的同时可以确保通信的迅捷性的语音信号处理方法及实现此的终端和服务器。
具体而言,本发明公开的实施例的目的在于提供一种将私密化信息区间以及一般信息区间分开到终端和服务器而处理的语音信号处理方法以及实现此的终端和服务器。
此外,本发明公开的实施例的目的在于提供一种终端利用私密化模型而对由服务器处理过的语音信号再次进行处理的语音信号处理方法及实现此的终端和服务器。
此外,本发明公开的实施例的目的在于提供一种利用到基于ID的私密化模型的语音信号处理方法及实现此的终端和服务器。
根据本发明公开的实施例的一种终端的语音信号处理方法包括如下步骤:接收语音信号(speech signal);检测出所述语音信号中包含个人信息的私密化信息区间(personalized information section);针对所述语音信号中对应于所述私密化信息区间的语音信号,利用基于所述个人信息而生成的私密化模型(personalized model)而进行数据处理;从服务器接收针对与作为所述私密化信息区间以外的区间的一般信息区间(general information section)相对应的语音信号进行数据处理的结果。
此外,所述终端的语音信号处理方法还可以包括如下步骤:生成关于所述私密化信息区间和所述一般信息区间的语音区间信息并传输到所述服务器。
此外,所述语音区间信息可以包括:区间标记信息,标记出所述语音信号中的所述私密化信息区间以及所述一般信息区间中的至少一个区间。
此外,所述终端的语音信号处理方法还可以包括如下步骤:从所述服务器接收关于所述私密化信息区间和一般信息区间的语音区间信息。
其中,从所述服务器接收到的针对与所述一般信息区间相对应的语音信号进行数据处理的结果可以是所述服务器利用一般模型而对与所述一般信息区间相对应的语音信号进行处理的结果。
根据本发明公开的实施例的一种服务器的语音信号处理方法包括如下步骤:接收语音信号;检测出所述语音信号中包含个人信息的私密化信息区间;针对所述语音信号中的与作为所述私密化信息区间以外的区间的一般信息区间相对应的语音信号,利用一般模型而进行数据处理;将针对与所述一般信息区间相对应的语音信号进行数据处理的结果传输到终端。
此外,所述服务器的语音信号处理方法还可以包括如下步骤:生成关于所述私密化信息区间和一般信息区间的语音区间信息并传输到所述终端。
此外,所述语音区间信息可以包括:区间标记信息,标记出所述语音信号中的所述私密化信息区间以及所述一般信息区间中的至少一个区间。
此外,所述服务器的语音信号处理方法还可以包括如下步骤:从所述终端接收关于所述私密化信息区间和一般信息区间的语音区间信息。
根据本发明公开的实施例的一种终端的语音信号处理方法包括如下步骤:接收语音信号;从服务器接收利用一般模型而对所述语音信号进行数据处理的结果;利用基于个人信息而生成的私密化模型以及所述数据处理的结果而对所述语音信号进行数据处理。
其中,利用数据处理结果以及基于个人信息而生成的私密化模型而对所述语音信号进行数据处理的步骤可以包括如下步骤:针对与包含所述个人信息的私密化信息区间相对应的语音信号进行数据处理。
此外,所述终端的语音信号处理方法还可以包括如下步骤:所述语音信号中检测出所述私密化信息区间。
此外,所述终端的语音信号处理方法还可以包括如下步骤:从所述服务器接收关于所述私密化信息区间和一般信息区间的语音区间信息。
其中,所述语音区间信息可以包括:区间标记信息,标记(marking)出所述语音信号中的所述私密化信息区间以及所述一般信息区间中的至少一个区间。
此外,所述私密化模型可以是私密化语音识别模型(personalized speechrecognition model)、语言理解模型(personalized natural language understandingmodel)以及私密化词汇模型(personalized lexical model)中的至少一个模型。
根据本发明公开的另一实施例的终端的语音信号处理方法包括如下步骤:把ID映射于个人信息而生成映射表;利用所述映射表而生成基于ID的私密化模型;将所述基于ID的私密化模型传输到服务器;从所述服务器接收利用基于ID的私密化模型而对语音信号进行数据处理的结果;利用所述数据处理的结果以及所述映射表而使对应于所述ID的所述个人信息复原。
其中,利用所述映射表而生成基于ID的私密化模型的步骤可以包括如下步骤:将映射于所述个人信息的ID表示成作为映射于声音的ID的声音单位ID。
此外,所述声音单位ID可以是根据与所述服务器达成的协议而映射于所述声音的ID。
此外,所述终端的语音信号处理方法还可以包括如下步骤:把ID映射于由所述个人信息生成的附加信息并生成所述映射表。
根据本发明公开的又一实施例的服务器的语音信号处理方法包括如下步骤:从终端接收基于ID的私密化模型;接收语音信号;利用所述基于ID的私密化模型而对所述语音信号进行数据处理;将所述数据处理的结果传输到所述终端。
其中,利用所述基于ID的私密化模型而对语音信号进行数据处理的步骤可以包括如下步骤:根据与所述终端达成的协议而利用作为映射于声音的ID的声音单位ID表示映射于个人信息的ID。
根据本发明公开的实施例的一种终端包括:接收单元,用于接收语音;通信单元,用于与服务器执行通信;控制单元,以如下方式执行控制:得以接收语音信号,并使所述语音信号中包含个人信息的私密化信息区间被检测出,并且利用基于所述个人信息而生成的私密化模型而使所述语音信号中的与所述私密化信息区间相对应的语音信号得到数据处理,并实现从所述服务器接收针对与作为所述私密化信息区间以外的区间的一般信息区间相对应的语音信号进行数据处理的结果。
此外,所述控制单元可构成为以如下方式执行控制:生成关于所述私密化信息区间和所述一般信息区间的语音区间信息,并将该信息传输到所述服务器。
此外,所述语音区间信息可以包括:区间标记信息,标记出所述语音信号中的所述私密化信息区间以及所述一般信息区间中的至少一个区间。
此外,所述控制单元可以构成为以如下方式执行控制:实现从所述服务器接收关于所述私密化信息区间和所述一般信息区间的语音区间信息。
此外,从所述服务器接收到的针对与所述一般信息区间相对应的语音信号进行数据处理的结果可以是所述服务器利用一般模型而对与所述一般信息区间相对应的语音信号进行处理的结果。
根据本发明公开的实施例的一种服务器包括:接收单元,用于接收语音;通信单元,用于与终端执行通信;控制单元,以如下方式执行控制:得以接收语音信号,并使所述语音信号中包含个人信息的私密化信息区间被检测出,且利用一般模型而使所述语音信号中的与作为所述私密化信息区间以外的区间的一般信息区间相对应的语音信号得到数据处理,并实现将针对与所述一般信息区间相对应的语音信号进行数据处理的结果传输到所述终端。
此外,所述控制单元可构成为以如下方式执行控制:生成关于所述私密化信息区间和所述一般信息区间的语音区间信息,并将该信息传输到所述终端。
其中,所述语音区间信息可以包括:区间标记信息,所述语音信号中的所述私密化信息区间以及所述一般信息区间中的至少一个区间。
此外,所述控制单元可构成为以如下方式执行控制:实现从所述终端接收关于所述私密化信息区间和所述一般信息区间的语音区间信息。
根据本发明公开的另一实施例的一种终端包括:通信单元,用于与服务器执行通信;控制单元,以如下方式执行控制:实现从所述服务器接收利用一般模型而对所述语音信号进行数据处理的结果,并利用所述数据处理的结果以及基于个人信息而生成的私密化模型而对所述语音信号进行数据处理。
此外,所述控制单元可构成为以如下方式执行控制:在利用所述数据处理的结果以及基于个人信息而生成的私密化模型而对所述语音信号进行数据处理时,实现针对与包含所述个人信息的私密化信息区间相对应的语音信号执行数据处理。
此外,所述控制单元可构成为以如下方式执行控制:使所述语音信号中检测出私密化信息区间。
此外,所述控制单元可构成为以如下方式执行控制:从所述服务器接收关于所述私密化信息区间和一般信息区间的语音区间信息。
此外,所述语音区间信息可以包括:区间标记信息,标记出所述语音信号中的所述私密化信息区间以及所述一般信息区间中的至少一个区间。
此外,所述私密化模型可以是私密化语音识别模型、语言理解模型以及私密化词汇模型中的至少一个模型。
根据本发明公开的又一实施例的一种终端包括:接收单元,用于接收语音信号;通信单元,用于与服务器执行通信;控制单元,以如下方式执行控制:使ID对应于个人信息而生成映射表,并利用所述映射表而生成基于ID的私密化模型,并将所述基于ID的私密化模型传输到所述服务器,并实现从所述服务器接收利用基于ID的私密化模型而对语音信号进行数据处理的结果,且利用所述数据处理的结果以及所述映射表而使对应于所述ID的所述个人信息复原。
此外,所述控制单元可通过如下方式执行控制:在利用所述映射表而生成基于ID的私密化模型时,使映射于所述个人信息的ID表示成作为映射于声音的ID的声音单位ID。
此外,所述声音单位ID可以是根据与所述服务器达成的协议而映射于所述声音的ID。
此外,所述控制单元可通过如下方式执行控制:使ID映射于由所述个人信息生成的附加信息而生成所述映射表。
根据本发明公开的又一实施例的一种服务器包括:接收单元,用于接收语音信号;通信单元,用于与终端执行通信;控制单元,以如下方式执行控制:实现从终端接收基于ID的私密化模型,并接收语音信号,且利用所述基于ID的私密化模型而使所述语音信号得到数据处理,并将所述数据处理的结果传输到所述终端。
此外,所述控制单元可通过如下方式执行控制:根据与所述终端达成的协议而利用作为映射于声音的ID的声音单位ID来表示映射于个人信息的ID。
附图说明
图1是表示根据本发明公开的实施例的终端的内部构造的模块图。
图2是表示根据本发明公开的实施例的服务器的内部构造的模块图。
图3是进一步详细地表示图1所示出的终端的内部构造的模块图。
图4是进一步详细地表示图2所示出的服务器的内部构造的模块图。
图5是表示根据本发明公开的实施例的终端设备的语音处理方法的顺序图。
图6是表示根据本发明公开的实施例的服务器的语音处理方法的顺序图。
图7是对私密化信息区间和一般信息区间进行说明的图。
图8是表示根据本发明公开的实施例的终端和服务器的具体操作过程的示例的顺序图。
图9是表示根据本发明公开的另一实施例的终端的语音处理方法的顺序图。
图10是表示根据本发明公开的另一实施例的服务器的语音处理方法的顺序图。
图11是表示根据本发明公开的另一实施例的终端和服务器的具体操作过程的示例的顺序图。
图12是表示根据本发明公开的又一实施例的终端的内部构造的模块图。
图13是进一步详细地表示根据本发明公开的又一实施例的服务器的内部构造的模块图。
图14是进一步详细地表示图12所示出的终端的内部构造的模块图。
图15是进一步详细地表示图13所示出的终端的内部构造的模块图。
图16是表示根据本发明公开的又一实施例的终端的语音处理方法的顺序图。
图17是表示根据本发明公开的又一实施例的服务器的语音处理方法的顺序图。
图18是表示个人信息的图。
图19是按音标来表示个人信息的图。
图20是表示将个人信息映射于ID的映射表的图。
图21是表示将个人信息的音标映射于ID的映射表的图。
图22是将个人信息ID表示为音标ID的图。
图23是表示根据本发明公开的另一实施例的终端设备和服务器的具体操作过程的示例的顺序图。
符号说明
100:终端 110:接收单元
130:通信单元 150:控制单元
200:服务器 210:接收单元
230:通信单元 250:控制单元
具体实施方式
参照根据附图而详细说明的实施例,将会更加明确地了解本发明的优点及特征还有用于达到目的之方法。然而本发明并不局限于以下公开的实施例,其可以实现为互不相同的多种形态,只不过为了完整地公开本发明并将本发明的范围完整地告知本发明所属的技术领域中具有基本的知识的技术人员而提供实施例,本发明只由权利要求书的范畴定义。贯穿整个说明书,相同的附图标记指相同的构成要素。
贯穿整个说明书,在说明过程中当提到某个部分与另一部分“连接”时,其不仅包括“直接连接”的情况,还包括在其中间放置另一元件而“形成电连接”的情况。此外,贯穿整个说明书,当提到某一部分“包括”某一构成要素时,在没有其他特别的相反记载的情况下,并不排除其他构成要素的可存在性,其表示还可以包括其他构成要素的含义。此外,本说明书中使用的术语“单元”意味着软件、FPGA或者ASIC等硬件构成要素,而且“单元”执行某种特定的功能。但是,“单元”的含义并不局限于软件或者硬件。“单元”可以配备于可寻址的存储介质中,也可以配备为再生出一个或者一个以上的处理器。因此,作为一例,“单元”包括:软件构成要素、面向对象的(object-oriented)软件构成要素、类构成要素以及任务构成要素等构成要素,还可以包括流程、函数、属性、程序(procedure)、子程序(subroutine)、程序代码段(segment)、驱动器、固件、微码、电路、数据、数据库、数据结构、表格、数组以及变量。构成要素与“单元”中提供的功能可以结合为更少的构成要素以及“单元”,或者可以分离为追加的构成要素和“单元”。
以下,参照附图而对本发明公开的实施例进行详细的说明,从而使本发明所属的技术领域中具有基本知识的人员能够容易地实施本发明。然而本发明公开的实施例可通过多种不同的形式来实现,而并不局限于在此说明的实施例。而且,为了能够明确地对附图中公开的实施例进行说明,将会省去与说明无关的部分。
在本发明公开的实施例中使用的术语是考虑到其在本发明公开的实施例中的功能而选用的,同时尽可能选择了目前普遍采用的一般术语,然而其可以根据本领域技术人员的意图或者先例、新技术的出现等而有所不同。此外,在特定的情况下还可以出现申请人所任意选定的术语,在此情况下,将在该发明的说明部分对其含义进行详细的记述。因此,在本发明公开的实施例中使用的术语不仅仅是单纯的术语的名称,而是需要基于那些术语具有的含义和贯穿本发明公开的整个实施例的内容来对其作出定义。
在本说明书中,私密化信息区间(personalized information section)表示语音信号中的包含有能够直接地或者间接地识别出各个个人的个人信息的区间。例如,在语音信号中,把存储于用户终端的通讯录中的姓名、用户的检索记录、用户的位置信息等包括在内的区间可以对应于个人信息区间。
本说明书中的一般信息区间(general information section)是语音信号中的包含有作为非个人信息的一般信息的区间,其表示除了私密化信息区间以外的其余的区间。例如,包括“打电话吧”、“吃饭了吗?”等具有一般的含义的语句的区间可以对应于一般信息区间。
在本说明书中,私密化模型(personalized model)作为反映出按个人的特征的语音处理模型,是针对特定的个人的匹配型语音处理模型。
在本说明书中,一般模型(general model)作为一般性的语音处理模型,是用于非特定者(即,非特定的对象或要素)的语音处理的语音处理模型。
图1是表示根据本发明公开的实施例的终端的内部构造的模块图。
参照图1,根据本发明公开的实施例的终端100包括:接收单元110、通信单元130以及控制单元150。
接收单元110执行接收语音信号的功能。接收单元110可以包括:麦克风单元、USB接口单元、DVD接口单元等多样的构成要素。例如,在接收单元110包括麦克风单元的情况下,终端100可以通过麦克风单元而直接接收语音信号。另外,在接收单元110包括USB接口单元的情况下,终端100还可以从USB中接收语音信号文件。此外,在通过通信单元130而从外部装置中接收语音信号的情况下,通信单元130还可以执行接收单元110的作用。
通信单元130执行与外部装置进行通信的功能。通信单元130可以通过有线或无线方式连接于网络,从而可以执行与外部装置之间的通信。根据本发明公开的实施例,通信单元130可以与服务器通信而收发数据。例如,通信单元130可以包括:近距离通信模块、移动通信模块、无线网络模块、有线网络模块等。此外,通信单元130还可以包括一个以上的构成要素。
控制单元150控制终端100整体的操作,并可以控制接收单元110以及通信单元130而处理语音信号。控制单元150可以包括:RAM,用于存储从终端100的外部输入的信号或者数据,或者可以使用为与电子设备中执行的多样的操作对应的存储区域;ROM,存储用于控制周围设备的控制程序;以及处理器(processor)。处理器可以由集成了芯(core;未图示)和GPU(未图示)的SoC(System On Chip)来实现。此外,处理器还可以包括多个处理器。
根据本发明公开的实施例的控制单元150通过接收单元120接收语音信号,从而在接收到的语音信号中检测出包括个人信息的私密化信息区间,并且利用基于个人信息来生成的私密化模型而对与私密化信息区间对应的语音信号进行数据处理,而且通过控制而实现通过通信单元130而从服务器接收对与作为私密化信息区间以外的区间的一般信息区间对应的音频信号执行数据处理的结果。此时,从服务器中接收的对与一般信息区间对应的语音信号进行数据处理的结果可以是服务器利用一般模型而对与一般信息区间对应的语音信号进行处理的结果。服务器具有较高的运算能力,其可以对一般信息区间进行快速数据处理。
另外,控制单元150可以通过控制而实现通过通信单元130生成针对私密化信息区间和一般信息区间的语音区间信息并传输到服务器,或者可以通过控制而实现从服务器接收对应于私密化信息区间和一般信息区间的语音区间信息。在此,语音区间信息可以包括区间标记信息,标出语音信号中的私密化信息区间以及一般信息区间中的至少一个区间。
此外,控制单元150还可以通过控制而将语音处理结果输出给用户。
根据本发明公开的实施例,终端100可以利用基于个人信息来生成的私密化模块而对与私密化信息区间对应的语言信号进行数据处理,而对作为私密化信息区间以外的区间的一般信息区间所对应的语言信号则接收由服务器进行数据处理的结果。服务器只对一般信息区间执行数据处理,而在数据处理过程中并不使用私密化模型。因此,服务器和终端100之间不发生任何形式的包含个人信息的信息传输,据此,服务器中不会存储任何的个人信息。结果,根据本发明公开的实施例,可以实现如下的语言处理系统:既可以从根本上保护个人信息,又可以具有更高的性能以及处理速度。
根据本发明公开的另一实施例的控制单元150以如下方式执行控制:通过接收单元100接收语音信号,通过通信单元130从服务器接收利用一般模型而对语音信号进行数据处理的结果,并利用数据处理结果以及基于个人信息来生成的私密化模型而进行数据处理。在此情况下,服务器200具有高运算能力,其可以对一般信息区间进行快速的数据处理。此外,私密化模型可以是私密化语音识别模型、语言理解模型以及私密化词汇模型中的至少一个模型。
此外,控制单元150在利用数据处理结果以及基于个人信息来生成的私密化模型而对语音信号执行数据处理时,可以通过控制而对与包含个人信息的私密化区间对应的语音信号执行数据处理。此时,控制单元150可以通过控制而实现检测出语音信号中的私密化信息区间,也可以通过控制而实现通过通信单元130从服务器接收对应于私密化信息区间和一般信息区间的语音区间信息。在此,语音区间信息可以包括区间标记信息,标出语音信号中的私密化信息区间以及一般信息区间中的至少一个区间。
根据本发明公开的实施例,终端可以从服务器接收利用一般模型而对语音信号进行数据处理的结果,并利用数据处理结果以及基于个人信息来生成的私密化模型而对接收到的语音信号再次执行数据处理。即,利用私密化模型的语音处理工作只在终端100中执行,因此,服务器和终端100之间不会发生任何形式的包括个人信息的信息传输,据此服务器中不会存储任何个人信息。结果,根据本发明公开的实施例,可以实现一种语言处理系统,其既可以从根本上保护个人信息,也可以具有更高的性能以及处理速度。
图2是表示根据本发明公开的实施例的服务器的内部结构的模块图。
参照图2,根据本发明公开的实施例的服务器200包括接收单元210、通信单元230以及控制单元250。
接收单元210执行接收语音信号的功能。接收单元210可以包括USB接口单元、DVD接口单元等能够由多样的形式来接收语音信号的构成要素。例如,在接收单元210包括USB接口单元的情况下,服务器200可以从USB接收语音信号文件。此外,在通过通信单元230而从外部装置接收语音信号的情况下,通信单元230可以执行接收单元210的功能。
通信单元230执行与外部装置进行通信的功能。通信单元230可以由有线或者无线的方式连接于网络,从而执行与外部装置之间的通信。根据本发明公开的实施例,通信单元230可以与终端100执行数据的传输和接收。根据本发明公开的实施例,通信单元130与服务器进行通信,从而可以进行数据的传输和接收。例如,通信单元130可以包括近距离通信模块、移动通信模块、无线网络模块、有线网络模块等。此外,通信单元还可以包括一个以上的构成要素。
控制单元250控制服务器200的整体操作,并可以通过控制接收单元210以及通信单元230而处理语音信号。控制单元250可以包括:RAM,存储从服务器200的外部输入的信号或者数据,或者被使用为在电子装置中执行的多样的操作所对应的存储区域;ROM,存储用于控制外部设备的程序;以及处理器(processor)。处理器可以由集成了芯(未图示)和GPU(未图示)的SoC(System On Chip)来实现。此外,处理器还可以包括多个处理器。
根据本发明公开的实施例的控制单元250通过接收单元210接收语音信号,并检测出其语音信号中包括个人信息的私密化信息区间,并且利用基于个人信息来生成的私密化模型而对与私密化信息区间对应的语音信号进行数据处理,而且通过控制而实现通过通信单元230而使对与一般信息区间对应的语音信号进行数据处理的结果传输到终端100。
此时,控制单元250可以生成针对私密化信息区间和一般信息区间的语音区间信息并通过通信单元230传输到终端100,或者可以从终端100接收对应于私密化信息区间和一般信息区间的语音区间信息。在此,语音区间信息可以包括区间标记信息,标出语音信号中的私密化信息区间以及一般信息区间中的至少一个区间。
根据本发明公开的实施例,服务器200只对一般信息区间所对应的语音信号执行数据处理,而在数据处理过程中并不使用私密化模型171。因此,服务器和终端100之间不发生任何形式的包含个人信息的信息传输,据此,服务器中不会存储任何的个人信息。结果,根据本发明公开的实施例,可以实现一种语言处理系统,其既可以从根本上保护个人信息,又可以具有更高的性能以及处理速度。
根据本发明公开的另一实施例的控制单元250实现通过接收单元210接收语音信号,从而利用一般模型而对语音信号中的与作为私密化信息区间以外的区间的一般信息区间对应的语音信号进行数据处理,并通过通信单元230而将数据处理的结果传输到终端。控制单元250可以生成语音信号中对应于私密化语音区间的语音区间信息,并可以将生成的语音区间信息传输到终端100。在此,语音区间信息可以包括区间标记信息,标出语音信号中的私密化信息区间以及一般信息区间中的至少一个区间。
根据本发明公开的实施例,服务器200只利用一般模型而对接收到的语音信号进行数据处理,因此在数据处理过程中并不使用私密化模型171。因此,服务器和终端100之间不发生任何形式的包含个人信息的信息传输,据此,服务器中不会存储任何的个人信息。结果,根据本发明公开的实施例,可以实现一种语言处理系统,其既可以从根本上保护个人信息,又可以具有更高的性能以及处理速度。
图3是进一步详细地表示图1所示出的终端的内部结构的模块图。图3中省去对与图1重复的构成要素进行的说明。
控制单元150可以包括语音处理引擎151。根据本发明公开的实施例,语音处理引擎可以包括语音识别引擎(ASR engine)和语言理解引擎(NRU engine),并对接收到的语音信号进行数据处理,从而执行语音识别以及语言理解。此时,语音识别引擎和语言理解引擎分别可以利用语音识别模块和语言理解模块来对语音信号进行处理。
语音识别模块可以包括声音模块和语言模块。声音模块是对应于语音信号的模块,其可以通过统计的方法而从接收到的大量的语音数据中生成。语言模块是与用户的话语对应的语法模块,其一般也可以通过统计性的学习而从接收到的大量的文本数据中得到。语言理解模块是用于表示用户的话语的含义的模块(Semantic model),其通过在大量的文本数据中进行统计性的学习而得到,或者通过考虑到使用场景而制作含义理解规则来得到。
终端100还可以包括存储单元170。存储单元170执行的功能是存储终端100的操作所需要的程序以及数据。存储单元170可以由易失性(volatile)存储介质或者非易失性(nonvolatile)存储介质来构成,也可以由存储介质的组合(combination)来构成。易失性存储介质可以包括RAM、DRAM、SRAM等半导体存储器(semiconductor memory),而非易失性存储介质可以包括:硬盘(hard disk)、NAND闪速存储器(Flash NAND Memory)。
根据本发明公开的实施例,存储单元170中可以存储个人信息172。个人信息172是能够直接地或者间接地识别各个个人的信息,其存储的数据的种类可以根据不同的终端的种类而不同。例如,对移动设备而言,可以包括:联系人、音乐列表、短消息的内容或信息接收情况、通话历史、网页浏览历史;而对TV而言,可以包括私密化的再生目录。
此外,存储单元170中可以存储私密化模型171。私密化模型是一种利用个人信息而反映按个人的特征的语音处理模块。存储单元170中可以存储私密化的语音识别模块以及/或者私密化的语言理解模块。在利用这种私密化的语音识别模块以及/或者私密化的语言理解模块的情况下,可以实现具有更高的性能的语音处理系统。
图4是进一步详细地表示图2所示出的服务器的内部结构的模块图。在图4中,省略对与图2重复的构成要素进行的说明。
控制单元250可以包括语音处理引擎。根据本发明公开的实施例,语音处理引擎可以包括语音识别引擎(ASR engine)和语言理解引擎(NRU engine),并可以对接收到的语音信号进行数据处理而执行语音识别以及语言理解。此时,语音识别引擎和语言理解引擎分别可以利用语音识别模块和语言理解模块而处理语音信号。
服务器200还可以包括存储单元270。存储单元270执行的功能是存储服务器200的操作所需要的程序以及数据。存储单元270可以由易失性(volatile)存储介质或者非易失性(nonvolatile)存储介质来构成,也可以由存储介质的组合(combination)来构成。易失性存储介质可以包括RAM、DRAM、SRAM等半导体存储器(semiconductor memory),而非易失性存储介质可以包括:硬盘(hard disk)、NAND闪速存储器(Flash NAND Memory)。根据本发明公开的实施例,存储单元270可以存储一般模型271。一般模型271为一般的语音处理模型,是用于非特定者的语音处理的语音处理模型,而不是用于特定的个人的语音处理的语音处理模型。对于以大容量构成的一般模型271而言,可以与服务器的高运算能力结合而提供与用户的多样的语言表达(大词汇)对应的较高的语音处理性能。因此,根据本发明公开的实施例,存储单元270中并不存储任何形式的个人信息,从而既可以从根本上保护个人信息,又可以提供较高的语音处理性能。
以下,对终端100和服务器200的操作进行更为详细的说明。
图5是表示根据本发明公开的实施例的终端的语音信号处理方法的顺序图。
首先,在510步骤中,终端100接收语音信号。终端100可以通过多样的构成要素而接收语音信号。虽然最为一般的形式是通过麦克风单元而接收语音信号的方式,然而还可以通过USB接口单元或者DVD接口单元等而接收语音信号。此外,还可以通过与外部装置执行通信而接收语音信号。根据本发明公开的实施例,终端100可以把通过上述的方式接收的语音信号传输到服务器200。
之后,在50步骤中,终端100检测出语音信号中包括个人信息的私密化信息区间。私密化信息区间表示语音信号中能够直接地或者间接地识别各个个人的个人信息的区间。例如,终端100可以参照存储于图3的存储单元170的个人信息172而将语音信号中的包括存储于用户终端的通讯录的名字、用户的搜索记录、用户的位置信息等的区间检测为私密化信息区间。参照图7而对其进行说明。
图7是对私密化信息区间和一般信息区间进行说明的图。
参照图7,一个“洪吉童先生10楼金吉童先生等您电话联系”的句子可以分为9个区间。即,可以分为:洪吉童701、先生702、10(703)、楼704、金吉童705、先生706、等您707、电话708、联系709。对上述的区间的区分标准可以根据情况而不同。
在此,如果假设洪吉童701是表示用户的词,而金吉童705是存储于终端的通讯录的名字,则与洪吉童701以及金吉童705对应的信号区间为私密化区间710。即,洪吉童701以及金吉童705对应于个人信息,而包括这种个人信息的区间701以及705对应于私密化信息区间710。终端100在520步骤中检测出如上所述的在语音信号中包含个人信息的私密化信息区间。
终端100可以借助于多样的方法而检测出私密化信息区间。例如,可以把非预先包括的词语判断为个人信息,从而可以将包括其词语的语音区间判断为私密化信息区间。只不过,这种方法仅仅是示例性的,可以利用多样的私密化信息区间检测方法。
此外,终端100可以利用如上所述地检测出的私密化信息区间而生成针对私密化信息区间和一般信息区间的语音区间信息并传输到服务器200。在此,语音区间信息可以包括区间标记信息,标出语音信号中的私密化信息区间以及一般信息区间中的至少一个区间。即,终端100可以在语音信号中标出能够看出是语音信号中的与私密化信息区间以及/或者一般信息区间对应的区间的标记,而且可以生成并传输包括所述区间标记信息的语音区间信息。如上所述地传输到服务器200的语音区间信息可以用于服务器在语音信号中确认以及/或者处理一般信息区间。服务器200可以确认除了标记为一般信息区间或者标记为私密化信息区间的区间以外的区间,并可以对与之对应的语音信号进行数据处理。
重新回到对图5进行的说明,在530步骤中,终端100利用基于私密化信息来生成的私密化模型171而对与私密化信息区间对应的语音信号进行数据处理。私密化模型171是反映按个人的特征的语音处理模型,是对特定的个人的匹配型语音处理模型。在利用私密化模型171而对语音信号执行数据处理的情况下,与为了非特定的多数而制作的一般模型相比,其可以进行更为准确的语音处理。此外,终端100针对与私密化区间对应的语音信号而可以直接利用私密化模型171来执行数据处理,因此不需要把包括个人信息的私密化模型171传输到服务器等外部装置,因此,可以从根本上保护个人信息。
此外,在540步骤中,终端100从服务器中接收针对与作为私密化信息区间以外的区间的一般信息区间对应的语音信号进行数据处理的结果。一般信息区间是语音信号中包括非个人信息的一般信息的区间,其表示除了私密化信息区间以外的区间。例如,包括“打电话”、“吃饭了吗?”等具有一般的含义的句子的区间可以是一般信息区间。参照图7进行说明。
如上所述,在图7中,“洪吉童先生10楼金吉童先生等您电话联系”这一句子可以分为9个区间。
在此,先生702、10(703)、楼704、先生706、等您707、电话708、联系709是一般的词语,而包括这些一般信息的区间702、703、704、706、707、708、709对应于一般信息区间720。
终端100在540步骤中,并不直接对语音信号中的包含一般信息的一般信息区间720对应的语音信号进行数据处理,而是从运算能力高于终端100的服务器200中接收数据处理结果。因此,对与一般信息区间720对应的语音信号可以进行快速的数据处理。
从服务器200接收的对一般信息区间所对应的语音信号进行数据处理的结果可以是服务器200利用一般模型271而进行针对一般信息区间的语音信号的结果。一般模型271可以与高运算能力结合而对多样的语言表达(大词汇)提供较高的语音处理性能。此外,服务器200具有高运算能力,其可以对一般信号区间进行快速的数据处理。
终端100还可以从服务器200接收对应于私密化信息区间和一般信息区间的语音区间信息。在此,语音区间信息可以包括区间标记信息,标出语音信号中的私密化信息区间以及一般信息区间中的至少一个区间。终端100可以独立地检测出私密化信息区间并生成语音区间信息。只不过,终端100和服务器可以分别对自行检测出的私密化信息区间以及/或者一般信息区间进行数据处理,因此,在终端100中检测出的私密化信息区间与在服务器200中检测出的私密化信息区间互不相同的情况下,数据处理中可能发生遗漏的区间。因此,为了对所有区间进行不遗漏的数据处理,终端100和服务器200可以共享对应于私密化信息区间和一般信息区间的语音区间信息。
此外,终端100可以向用户输出数据处理结果。
结果,根据本发明公开的实施例,可以不用向服务器200传输个人信息172或者私密化模型171而维持在终端100中,并且通过在终端100中利用这种个人信息172或者私密化模型来进行语音处理,从而可以实现一种既可以从根本上保护个人信息,又可以实现具有更高的性能以及处理速度的语音处理系统。
图6是表示根据本发明公开的实施例的服务器的语音信号处理方法的顺序图。
首先,在610步骤中,服务器200接收语音信号。服务器200可以通过多样的构成要素而接收语音信号。虽然从终端接收语音信号是最为一般的形式,然而还可通过USB接口单元或者DVD接口单元等接收语音信号。
之后,在620步骤中,服务器200在接收到的语音信号中检测出包括个人信息的私密化信息区间。服务器200可以通过对接收到的语音信号进行解析而检测出私密化信息区间,还可以从终端100接收语音区间信息而检测私密化信息区间。服务器200可以通过多样的方式检测出私密化信息区间。例如,非预先包括的词语可以判断为个人信息,并将包括该词语的语音区间判断为私密化信息区间。然而,上述的方法只是示例性的,可以利用多样的私密化信息区间的检测方法。
对私密化信息区间以及一般区间则在上文中参照图7而进行过说明,不再进行重复的说明。
另外,服务器200可以利用如上所述地检测出的私密化信息区间而产生针对私密化信息区间和一般信息区间的语音区间信息,并将其传输到终端100。在此,语音区间信息可以包括区间标记信息,标出语音信号中的私密化信息区间以及一般信息区间中的至少一个区间。即,服务器200可以对语音信号中的私密化信息区间以及/或者一般信息区间进行可看出是对应的区间的标记,而且可以生成并传输包括这种区间标记信息的语音区间信息。如上所述地传输到终端100的语音区间信息可以用于终端100确认以及/或者处理语音信号中的私密化信息区间。终端100可以对除了标记为一般信息区间或者标记为私密化信息区间的区间以外的区间进行确认,并且可以对与之对应的语音信号进行数据处理。
之后,在630步骤中,服务器200可以利用一般模型271而对语音信号中的作为私密化信息区间以外的区间的一般信息区间所对应的区间进行数据处理。一般模型271可以与服务器的高运算能力结合而对用户的多样的语言表达(大词汇)提供较高的语音处理性能。此外,服务器200具有较高的运算能力,其可以对一般的信息区间进行快速的数据处理。此外,对与包括个人信息的私密化区间对应的语音信号而言,服务器200并不对其进行处理,而是在具有私密化模型171的终端中对其进行数据处理,因此可以从根本上保护个人信息。
此外,在640步骤中,服务器200可以向终端传输对与一般信息区间对应的语音信号进行数据处理的结果。
服务器200还可以从终端100接收对应于私密化信息区间和一般信息区间的语音区间信息。在此,语音区间信息可以包括区间标记信息,标出语音信号中的私密化信息区间以及一般信息区间中的至少一个区间。服务器200可以自行检测出私密化信息区间并生成语音区间信息。只不过,终端100和服务器200分别可以对自行检测出的私密化信息区间以及/或者一般信息区间执行数据处理,因此在终端100中检测出的私密化信息区间和服务器200中检测出的私密化信息区间互不相同的情况下,数据处理过程中可能会发生遗漏现象。因此,为了能够不遗漏地对所有的区间执行数据处理,终端100和服务器200可以共享对应于私密化信息区间和一般信息区间的语音区间信息。
结果,根据本发明公开的实施例,可以实现一种语音处理系统,其即可以从根本上保护个人信息,又可以具有更高的性能以及处理速度。
图8是表示根据本发明公开的实施例的终端和服务器的具体工作过程的示例的顺序图。
首先,在805步骤中,终端100接收语音信号。如在上文中进行的说明,终端100可以通过多样的构成要素而接收语音信号。虽然最为一般的形式是通过麦克风单元而接收语音信号的方式,然而还可以通过USB接口单元或者DVD接口单元等而接收语音信号。此外,还可以通过与外部装置执行通信而接收语音信号。之后,在810步骤中,终端100可以将接收到的语音信号传输到服务器200。
终端100和服务器200分别在815步骤以及820步骤中对语音信号检测出私密化语音区间。终端100和服务器200可以通过多样的方法检测出私密化信息区间。例如,可以把非预先包括的词语判断为个人信息,从而可以将包括其词语的语音区间判断为私密化信息区间。只不过,这种方法仅仅是示例性的,可以利用多样的私密化信息区间的检测方法。
针对在815步骤中检测出的私密化信息区间,终端100进入到825步骤而基于私密化模型171来处理语音数据,而对私密化语音区间以外的一般信息区间,则可以进入到830步骤而规避(pass)数据处理并生成语音区间信息。服务器200针对在820步骤中检测出的私密化信息区间则进入到835步骤而规避数据处理并生成语音区间信息,针对私密化语音区间以外的一般信息区间则进入到830步骤而基于一般模型271来处理语音数据。
通过上述的过程,终端100可以直接利用私密化模型而对与私密化区间对应的语音信号进行数据处理,服务器200利用一般的模型而基于高运算能力来对与一般信息区间对应的语音信号进行数据处理,从而既可以实现从根本上保护个人信息,又可以实现较高的语音处理性能。
之后,终端100与服务器200在845步骤以及850步骤中共享语音区间信息以及数据处理结果。即,服务器200可以把845步骤中进行的语音数据处理的结果和语音区间信息传输到终端100,而终端100将其语音区间信息传输到服务器200。在图8中,这种过程表示为845步骤、850步骤,然而在共享过程中,终端100或者服务器200中的哪一方先传输数据都不会成问题。
如上所述,终端100和服务器200分别可以自行检测出私密化信息区间,并可以生成语音区间信息。只不过,终端100和服务器200分别可以对自行检测出的私密化信息区间以及/或者一般信息区间执行数据处理,因此,在终端100中检测出的私密化信息区间和在服务器200中检测出的私密化信息区间互不相同的情况下,在数据处理过程中可能会发生遗漏的区间。因此,为了能够对所有的区间执行不遗漏的数据处理,终端100和服务器200可以共享对应于私密化信息区间和一般信息区间的语音区间信息。
终端100在855步骤中判断是否对所有语音信号区间完成了数据处理,而在判断为完成了的情况下,结束其操作。如果在855步骤中未完成数据处理,则终端100可以进入到865步骤,并基于从服务器200接收的语音区间信息而利用私密化模型171来对未经处理的语音区间执行数据处理。服务器200判断出在860步骤中是否对所有语音信号区间完成了数据处理,并在判断为完成了的情况下,结束其操作。如果在860步骤中未完成数据处理,则服务器200进入到870步骤,从而基于从终端100接收的语音区间信息而利用私密化模型171来对未经处理的语音区间执行数据处理。
如图8所述,在815步骤至870步骤的语音信号处理过程中,可以同时并行地在终端100和服务器200中执行操作,也可以在终端100和服务器200中交替地切换而执行语音处理。
在终端100和服务器200交替地切换而执行语音处理的情况下,在终端100中基于私密化模型171来对与私密化信息区间对应的语音信号进行数据处理的过程中如果输出对应于一般信息区间的语音信号,则在语音区间信息被传输到服务器200的情况下,服务器200可如下地执行语音处理:从终端100的数据处理语音信号过后到来的语音信号开始,利用一般模型271而执行语音处理。之后,当再次输出对应于私密化信息区间的语音信号时,如果把目前为止的语音处理结果和语音区间信息传输到终端100,则终端100可如下地执行语音处理:从服务器200的数据处理语音信号过后到来的语音信号开始,利用一般模型271而执行语音处理。
与此相反,在服务器200中开启语音处理的情况下,服务器在正在利用一般模型271而对与一般区间对应的语音信号执行语音处理的过程中遇到对应于私密化信息区间的语音信号的输出的情况下,如果把目前为止的数据处理结果和语音区间信息传输到终端100,则终端100如下地执行语音处理:从服务器200的数据处理语音信号过后到来的语音信号开始,利用一般模型而执行语音处理。
根据本发明公开的实施例,可以实现一种语音处理系统,其既可以从根本上保护个人信息,又可以具有更高的性能以及处理速度。
图9是表示根据本发明公开的另一实施例的终端的语音处理方法的顺序图。
首先,在910步骤中,终端100接收语音信号。终端100可以通过多样的构成要素接收语音信号。虽然最为一般的形式是通过麦克风单元而接收语音信号的方式,然而还可以通过USB接口单元或者DVD接口单元等而接收语音信号。此外,还可以通过与外部装置执行通信而接收语音信号。根据本发明公开的实施例,终端100可以将通过上述的方式接收的语音信号传输到服务器200。
之后在920步骤中,终端100接收利用一般模型271而对语音信号进行数据处理的结果。即,终端100接收服务器200中与终端100独立地对语音信号执行数据处理的结果。一般模型271可以与服务器的高运算能力结合而提供与用户的多样的语言表达(大词汇)对应的较高的语音处理性能。此外,服务器200具有较高的运算能力,其可以对一般的信息区间进行快速的数据处理。
接着在930步骤中,终端100利用基于个人信息来生成的私密化模块171以及从服务器200接收的数据处理结果而对语音信号进行数据处理。根据本发明公开的实施例,对语音信号,终端100可以利用私密化模块171以及从服务器200接收的数据处理结果来对整个语音信号或者一部分语音信号再次进行数据处理。如上所述,服务器利用一般模型271来执行数据处理,且为了更高的语音处理性能而利用私密化模型171再进行一次数据处理。
在此情况下,终端100可以对与包含个人信息的私密化信息区间对应的语音信号进行数据处理。即,服务器200可以利用高运算能力而在不区分一般信息区间和私密化信息区间的情况下对整个语音信号应用一般模型271而执行数据处理。之后,对能够利用个人信息172来提高处理性能的私密化信息区间而言,则可以在终端100中利用私密化模型而重新反复一次数据处理。为此,终端100可以在语音信号中检测出私密化信息区间。终端100可以通过多样的方法检测出私密化信息区间。例如,可将非预先包括的词语判断为个人信息,并可以把包括该词语的语音区间判断为私密化信息区间。只不过,上述的方法仅仅是一示例,可以利用多样的私密化信息区间的检测方法。
或者,终端100还可以从服务器接收对应于私密化信息区间和一般信息区间的语音区间信息。通过接收具有高运算能力的服务器200中生成的语音区间信息,终端100的数据处理负担会减少,从而可以提高整体的语音处理速度。在此,语音处理区间信息可以包括区间标记信息,标出语音信号中的私密化信息区间以及一般信息区间终端至少一个区间。
在上文中参照图7而对私密化信息区间以及一般信息区间进行过说明,因此不再重复进行说明。
在此,私密化模型171可以是:私密化语音识别模型(personalized speechrecognition model)、语言理解模型(personalized natural language understandingmodel)以及私密化词汇模型(personalized lexical model)中的至少一个模型。
在终端100利用私密化语音识别模型而对语音信号执行数据处理的情况下,终端100可以接收来自服务器200的以音素、伪语素(pseudo morpheme)或词语为单位的数据处理结果,并可以接收N-best假说(N-best hypothesis)、点阵(lattice)、混淆网络(confusion network)等多通道(multi-pass)处理结果而运用到数据处理中。
在终端100利用语音理解模型来对语音信号执行数据处理的情况下,终端100从服务器接收以音素、伪语素或者词语为单位的数据处理结果以及以语句或者词语为单位的可靠性分数(confidence score)等信息,并可以在数据处理中运用。此外,还可以从服务器200接收多通道(multi-pass)处理结果并在数据处理中运用。
在终端100利用私密化词汇模型(personalized lexical model)而对语音信号执行数据处理的情况下,终端100可以从服务器200接收以音素、伪语素或者词语为单位的数据处理结果以及以语句或者词语为单位的可靠性分数(confidence score)等信息,并可以在数据处理中运用。此外,终端100可以利用从服务器200接收的数据处理结果和个人词语列表来执行数据处理,在此情况下,为了假定(hypothesis)与个人词语之间的音素单元比较,可以使用发音词典。
不管使用哪一种模型,都不需要将个人信息传输到服务器200,并可以通过个人信息的运用而更为准确地完成语音处理。
根据本发明公开的实施例,利用私密化模型的语音处理工作只在终端100中执行,因此在服务器200和终端100之间不会发生任何形式的包含个人信息的信息传输,据此,服务器200中也不会存储任何的个人信息。因此,可以实现一种语音处理系统,其既可以从根本上保护个人信息,又可以具有更高的性能以及处理数据。
图10是表示根据本发明公开的另一实施例的服务器的语音处理方法的顺序图。
首先,在1010步骤中,服务器200接收语音信号。服务器200可以通过多样的构成要素而接收语音信号。虽然最为一般的形式是通过麦克风单元而接收语音信号的方式,然而还可以通过USB接口单元或者DVD接口单元等而接收语音信号。
之后,在1020步骤中,服务器200可以利用一般模型271而对接收到的语音信号执行数据处理。即,服务器200可以利用一般模型271而与终端100相互独立地对语音信号执行数据处理。一般模型271可以与服务器的高运算能力结合而提供与用户的多样的语言表达(大词汇)对应的较高的语音处理性能。此外,服务器200可以具有高运算能力,其可以快速地执行数据处理。
接着,在1030步骤中,服务器200将数据处理结果传输到终端100。在此情况下,服务器还可以生成对应于私密化信息区间和一般信息区间的语音区间信息而一并传输到终端。具有高运算能力的服务器200中生成语音区间信息并传输到终端,从而可以减少终端100的数据处理负担,并可以使整体的语音处理速度变得更快。在此,语音区间信息可以包括区间标记信息,标出语音信号中的私密化信息区间以及一般信息区间中的至少一个区间。
结果,根据本发明公开的实施例,可以实现一种语音处理系统,其既可以从根本上保护个人信息,又可以具有更高的性能以及处理速度。
图11是表示根据本发明公开的另一实施例的终端和服务器的具体操作过程的示例的顺序图。
首先,在1110步骤中,终端100接收语音信号。如上所述,终端100可以通过多样的构成要素接收语音信号。虽然最为一般的形式是通过麦克风单元而接收语音信号的方式,然而还可以通过USB接口单元或者DVD接口单元等而接收语音信号。此外,还可以通过与外部装置执行通信而接收语音信号。此后,在1120步骤中,终端100可以将通过上述的方式接收的语音信号传输到服务器200。
在1130步骤中,服务器200利用一般模型271而对接收到的语音信号进行数据处理。一般模型271可以与高运算能力结合而对多样的语言表达(大词汇)提供较高的语音处理性能。此外,服务器200具有高运算能力,其可以进行快速的数据处理。
此时,服务器200可以生成对应于私密化信息区间和一般信息区间的语音区间信息。通过在具有高运算能力的服务器200中生成语音区间信息而减少终端100的数据处理负担,从而可以使整体的数据处理速度变得更快。
之后,在1140步骤中,服务器200可以将数据处理结果和语音区间信息传输到终端100。终端100在1150步骤中利用基于私密化信息而生成的私密化模型171以及接收到的数据处理结果来对语音信号进行数据处理。即,终端100可以对语音信号的整体或者一部分再进行一次数据处理。即,为了更高的语音处理性能而利用私密化模型再进行一次数据处理。
在此情况下,终端100可以通过检测出私密化信息区间而对与私密化信息区间对应的语音信号执行数据处理。此外,终端100可以利用私密化语音识别模型、语言理解模型以及私密化词汇模型中的至少一个模型来对语音信号进行数据处理。
根据本发明公开的实施例,利用私密化模型的语音处理只在终端100中执行,因此,服务器和终端100之间不发生任何形式的包含个人信息的信息传输,据此,服务器中不会存储任何个人信息。因此,可以实现一种语言处理系统,其既可以从根本上保护个人信息,又可以具有更高的性能以及处理速度。
图12是表示根据本发明公开的又一实施例的终端的内部结构的模块图。
参照图12,根据本发明公开的又一实施例的终端1200包括:通信单元1210以及控制单元1230。
通信单元1210执行与外部装置进行通信的功能。通信单元1210可通过有线或无线方式连接于网路,从而可以执行与外部装置之间的通信。根据本发明公开的实施例,通信单元1210可以与服务器执行通信,并可以传输或接收数据。根据本发明公开的实施例,通信单元130可以与服务器进行通信而传输或接收数据。例如,通信单元130可以包括:近距离通信模块、移动通信模块、无线网络模块、有线网络模块等。此外,通信单元130还可以包括一个以上的构成要素。
控制单元1230控制终端1200的整体操作,并可以通过控制通信单元1210而处理音频信号。控制单元1230可以包括:RAM,存储从终端1200外部接收的信号或者数据,或者可以利用为与电子设备中执行的多样的操作对应的存储区域;ROM,存储用于控制外部设备的程序;以及处理器(processor)。处理器可以由集成了芯(未图示)和GPU(未图示)的SoC(System On Chip)来实现。此外,处理器还可以包括多个处理器。
根据本发明公开的实施例的控制单元1230以如下方式执行控制:使ID对应于个人信息而生成映射表,并利用映射表而生成基于ID的私密化模型,并且通过通信单元121而将基于ID的私密化模型传输到服务器,而且从服务器接收利用基于ID的私密化模型来对语音信号进行数据处理的结果,还利用数据处理结果以及映射表而使对应于ID的个人信息复原。此时,控制单元1230还可以使ID对应于由个人信息生成的附加信息而生成映射表。在此情况下,控制单元1230以如下方式执行控制:从服务器接收利用基于ID的私密化模型而对附加信息进行数据处理的结果,并利用数据处理结果以及映射表而使对应于ID的附加信息复原。
控制单元1230在利用映射表而生成基于ID的私密化模型时,可以把映射于所述个人信息的ID表示成作为映射于声音单元的ID的声音单位ID。在此,声音单位ID可以是根据与服务器达成的协议而映射于所述声音单元的ID。声音单位ID表示对应于音标的语音识别模型的特定部分,其可以不与音标形成一对一的映射。
根据本发明公开的实施例,个人信息以及由个人信息生成的附加信息被由终端直接授予的ID所掩蔽(masking)而生成私密化模型,因此即使向外部暴露私密化模型也很难复原由ID来掩蔽的个人信息,从而可以保护个人信息。另外,将私密化模型传输到具有高运算能力的服务器而对语音信号进行数据处理,从而可以实现一种具有更高的性能以及处理速度的语音处理系统。
图13是更为详细地表示根据本发明公开的又一实施例的服务器的内部结构的模块图。
参照图13,根据本发明公开的实施例的服务器1300包括接收单元1310、通信单元1330以及控制单元1350。
通信单元1310执行接收语音信号的功能。接收单元1310可以包括:麦克风单元、USB接口单元、DVD接口单元等能够由多样的形式来接収语音信号构成要素。例如,在接收单元110包括USB接口单元的情况下,服务器1300可以从USB中接收信号文件。此外,在通过通信单元1330而从外部装置中接收语音信号的情况下,通信单元130还可以执行接收单元110的功能。
通信单元1330执行与外部装置进行通信的功能。通信单元1330可以由有线或者无线的方式连接于网络,从而可以执行与外部装置之间的通信。根据本发明公开的实施例,通信单元1330可以与服务器通信而传输并接收数据。根据本发明公开的实施例,通信单元130可以与服务器通信而传输并接收数据。例如,通信单元130可以包括:近距离通信模块、移动通信模块、无线网络模块、有线网络模块等。此外,通信单元130还可以包括一个以上的构成要素。
控制单元1350控制终端1300整体的操作,并可以控制接收单元1310以及通信单元1330而处理语音信号。控制单元1350可以包括:RAM,存储从终端100的外部接收的信号或者数据,或者可以利用为与电子设备中执行的多样的操作对应的存储区域;ROM,存储用于控制外部设备的程序;以及处理器(processor)。处理器可以由集成了芯(未图示)和GPU(未图示)的SoC(System On Chip)来实现。此外,处理器还可以包括多个处理器。
根据本发明公开的实施例的控制单元1350通过控制而完成如下的工作:从终端1200接收基于ID的私密化模型,通过接收单元1310而接收语音信号,且利用基于ID的私密化模型而对语音信号进行数据处理,并通过通信单元1330而将数据处理结果传输到终端。
此外,控制单元1350可以通过控制而完成如下的工作:在利用基于ID的私密化模型而对语音信号进行数据处理时,可以根据与终端1200之间的协议而利用作为映射于声音单元的ID的声音单位ID来表示映射于个人信息的ID。
根据本发明公开的实施例,服务器1300从终端1200接收基于ID的私密化模型,并利用接收到的基于ID的私密化模型而处理数据,从而即使向外部暴露私密化模型,也很难复原由ID来掩蔽的个人信息,从而可以保护个人信息。另外,由具有高运算能力的服务器1300对语音信号进行数据处理,从而可以实现一种具有更高的性能以及处理速度的语音处理系统。
图14是表示根据本发明公开的又一实施例的终端的内部结构的模块图。在图14中,省去对与图12重复的构成要素进行的说明。
控制单元1230可以包括私密化模型生成单元1231。根据本发明公开的实施例,私密化模型生成单元1231可以基于包括在存储单元1270的个人信息来生成私密化模型。私密化模型生成单元1231可以通过把ID与个人信息1272或者由个人信息1272生成的附加信息对应起来而生成映射表1273,并可以利用生成的映射表1273而生成基于ID的私密化模型。
终端1200还可以包括接收单元1250。接收单元1250可以包括:麦克风单元、USB接口单元、DVD接口单元等多样的构成要素。例如,在接收单元1250包括麦克风单元的情况下,终端1200可以通过麦克风单元而直接地接收语音信号。另外,在接收单元1250包括USB接口单元的情况下,终端1200还可以从USB中接收信号文件。此外,在通过通信单元130而从外部装置中接收语音信号的情况下,通信单元1210还可以执行接收单元1250的功能。
终端1200还可以包括存储单元1270。存储单元1270用于存储终端1200的操作所需要的程序以及数据。存储单元1270可以由易失性(volatile)存储介质或者非易失性(nonvolatile)存储介质来构成,也可以由两个存储介质的组合(combination)来构成。易失性存储介质可以包括RAM、DRAM、SRAM等半导体存储器(semiconductor memory),而非易失性存储介质可以包括:硬盘(hard disk)、NAND闪速存储器(Flash NAND Memory)。根据本发明公开的实施例,存储单元170可以存储个人信息1272以及映射表1273。
个人信息1272是能够直接地或者间接地识别各个个人的信息,其存储的数据的种类可以根据不同的终端的种类而不同。例如,对移动设备而言,可以包括:联系人、音乐列表、短消息的内容或信息接收情况、通话历史、网页浏览历史;而对TV而言,可以包括私密化的再生目录。
映射表1273包括与个人信息1272或者由个人信息1272生成的附加信息对应的ID。映射表1273用于使私密化模型生成单元1231生成基于ID的私密化模型。此外,映射表1273还用于复原对应于ID的个人信息1272或者附加信息的过程中。
图15是进一步详细地说明图13所表示的服务器的内部结构的模块图。
控制单元1350可以包括语音处理引擎1351。根据本发明公开的实施例,语音处理引擎1351可以包括语音识别引擎和语音理解引擎,并可以对接收到的语音信号进行数据处理而执行语音识别以及语言理解。此时,语音识别引擎和语言理解引擎分别可以利用语音识别模型和语言理解模型而处理语音信号。
服务器1300还可以包括存储单元1370。存储单元1370用于存储服务器1300的操作所需要的程序以及数据。存储单元1370可以由易失性(volatile)存储介质或者非易失性(nonvolatile)存储介质来构成,也可以由两个存储介质的组合(combination)来构成。易失性存储介质可以包括RAM、DRAM、SRAM等半导体存储器(semiconductor memory),而非易失性存储介质可以包括:硬盘(hard disk)、NAND闪速存储器(Flash NAND Memory)。
根据本发明公开的实施例,存储单元1370可以存储私密化模型1372以及一般模型1373。私密化模型1372是从终端1200接收的基于ID的私密化模型,于是即使向外部暴露私密化模型,也很难复原由ID来掩蔽的个人信息1272,从而可以保护个人信息。一般模型271是一般的语音处理模型,用于对非特定者(即,非特定的对象或要素)的语音进行处理。以大容量构成的一般模型271可以与高运算能力结合而对多样的语言表达(大词汇)提供较高的语音处理性能。
以下,对终端1200和服务器1300的工作进行更为详细的说明。
图16是表示根据本发明公开的又一实施例的终端的语音处理方法的顺序图。
首先,终端1200在1610步骤中将个人信息1272与ID对应起来而生成映射表1273。在此情况下,也可以使ID在对应于个人信息1272的同时对应于由个人信息1272生成的附加信息而生成映射表1273。在此,附加信息可以包括音标、发音法等。根据本发明公开的实施例,终端1200利用个人信息1272的词语表而生成发音词典,并利用发音词典而对音标和词语进行ID的映射。在此情况下,终端1200可以授予任意的ID。以下参照图18至图20而对其进行更为详细的说明。
图18是表示个人信息的图。
个人信息1272是可以直接地或者间接地识别各个个人的信息,联系方式、音乐列表、短消息的内容或者信息接收情况、通话历史、网页浏览历史等与其对应。参照图18,图示了多样的形式的个人信息,而可以看出存储于联系方式项目的名字、音乐再生目录中的音乐列表或者歌手、搜索结果等个人信息1272存储于此。根据本发明公开的实施例,终端1200可以使ID映射于上述的个人信息1272,从而可以生成映射表。以下参照图19而对其进行说明。
图19是表示把个人信息映射于ID的映射表的图。
参照图19,终端1200使作为包括在个人信息1272中的词语的洪吉童、金吉童、江南style、TOXIC、Psy、Galaxy、Note分别映射于ID 0x01、0x02、0x03、0x04、0x05、0x06、0x07,从而生成词语映射表1910。进而,终端1200除了可以使ID映射于个人信息1272以外,还可以使ID映射于由个人信息1272生成的附加信息,从而生成映射表1273。这种附加信息可以包括音标、发音法等。以下,将参照图20而对其进行说明。
图20是按音标来表示个人信息的图。
根据本发明公开的实施例,终端1200可以利用个人信息1272的词语列表而生成发音词典(phonetic dictionary)1910。参照图20,在个人信息1272中,存储于联系方式中的名字洪吉童由“HH OW NX K IY T OW NX”来表示其音标。另外,包括在音乐列表中的江南style可以由“K AA NX N A M ST AI L”来表示。终端1200可以如上所述地由音标来表示个人信息1272并生成发音词典1910。此时,终端1200可以使用多样的形式的音标。可以如上所述地利用字母来表示发音,而如果是英文词语,则还可以使用英文音标来生成发音词典2010。参照图20,可以利用英文音标来表示个人信息1272,例如,TOXIC可以由“tɑ:ksIk”来表示;Galaxy可以由
Figure GDA0001565983310000291
来表示。终端1200不仅可以把ID对应于个人信息1272,还可以将ID对应于如音标似的可由个人信息1272生成的附件信息,从而生成映射表1273。
再对图16进行说明,终端1200在1620步骤中利用映射表1273而生成基于ID的私密化模型1372。基于ID的私密化模型1372是利用生成于1610步骤的映射表1273而生成的,且个人信息1272以及附加信息可以由ID来掩蔽。根据本发明公开的实施例,终端1200可以生成私密化模型而把映射于个人信息1272以及附加信息的ID表示为声音单位ID。以下参照图21以及图22而对其进行说明。
图21是表示把声音单元映射于ID的映射表的图。
声音单位ID表示对应于音标的语音识别模型的特定部分。参照图21,终端100可以把包括在各个词语的音标HH、OW、NX、K、IY、L分别映射于ID 0x101、0x102、0x103、0x104、0x105、0x106、…,从而生成声音单位映射表2110。根据本发明公开的实施例,终端1200在把ID映射于声音时,可以根据与服务器1300之间的协议来把特定的ID映射于特定的声音。即,终端1200在声音单元HH上映射的ID 0x101可以是事先与服务器1300达成协议的ID。据此,服务器1300在对语音信号进行数据处理时,可以利用与终端1200达成协议的特定ID来对特定的语音信号(即,特定声音)建立对应关系。在终端1200和服务器1300的协议过程中,可以在终端1200或者服务器1300的一方指定映射于特定声音的ID而向对方通知,或者可以交换意见而把ID映射于音标。在图20中,为方便说明,音标和声音单位ID形成了一对一的映射关系,然而音响单元ID也可以不与音标形成一对一的映射关系。例如,可以把结合HH和OW的声音看做是一个声音单元,从而可以在HH OW上授予一个声音单位ID。
图22是把个人信息ID表示为声音单位ID的图。
终端1200可以把词语ID映射于个人信息2210,并可以利用这种个人信息2210的音标以及声音模型来把声音单位ID 2230映射于词语ID 2220。声音单位ID表示对应于音标的语音识别模型的特定部分,而还可以不与音标形成一对一的映射关系。只不过,在此为方便说明,将假设声音单位ID与音标形成一对一的映射关系。
参照图22,终端1200任意地由0x01这一ID对个人信息1272“洪吉童”的词语建立起映射。“洪吉童”的词语可以由音标“HH OW NX K IY T OW NX”来表示,而各个音标映射于与服务器1300达成协议的声音单位ID 0x101、0x102、0x103、0x104、0x105、0x106、…。因此,对应于“洪吉童”的0x01的ID可以表示为声音单位ID 0x101、0x102、0x103、0x104、0x105、0x106、…。
根据本发明公开的实施例,终端1200由任意的ID对词语建立起映射,并可以把相关词语ID表示为与服务器达成协议的声音单位ID。据此,个人信息1272可以被ID掩蔽,从而即使向外部暴露私密化模型也可以保护个人信息1272,并可以利用达成协议的声音单位ID而对语音信号进行数据处理。
接着,终端1200在1630步骤中把基于ID的私密化模型传输到服务器。如上所述,基于ID的私密化模型1372可以基于图22所示出的词语ID 2220以及声音单位ID 2230来生成。因此,服务器1300在接收到要识别的语音信号的情况下,可以对语音信号进行处理而将与语音信号的声音单位ID 2230对应的词语ID输出为结果。此时,映射表1273并不传输到服务器,而只是将其存储于终端1200,从而即使私密化模型向外部暴露也可以保护个人信息。
之后,终端1200在1640步骤中从服务器1300中接收利用基于ID的私密化模型1372而对语音信号进行数据处理的结果。例如,在服务器中利用基于ID的私密化模型而进行数据处理的结果可以包含如图22所示出的词语ID2220。
接着,在1650步骤中,终端1200可以利用从服务器1300接收到的数据处理结果以及映射表1273而复原对应于ID的个人信息1272或者附加信息。即,终端1200在将图22所示的词语ID 2220作为数据处理结果而从服务器1300接收到的情况下,利用存储的词语映射表1273而复原对应于词语ID2220的个人信息。参照图20,终端可以把ID 0x01恢复为“洪吉童”。根据本发明公开的实施例,终端1200可利用映射表来复原由ID来隐蔽的个人信息1272,从而可以完成数据处理。终端1200可以生成私密化模型而使语音处理系统具有较高的性能,而实际数据处理将在具有高运算能力的服务器1300中实现,从而可以快速地处理语音信号。
此外,终端1200可以向用户输出数据处理结果。
结果,根据本发明公开的实施例,个人信息1272转化为无法掌握词语或者句子的内容的形式而传输到服务器1300,于是即使向外部暴露私密化模型也很难复原由ID来掩蔽的个人信息1272,从而可以保护个人信息1272。此外,在具有高运算能力的服务器1300中进行数据处理,从而可以实现一种具有更高的性能以及处理速度的语音处理系统。
图17是表示根据本发明公开的又一实施例的服务器的语音处理方法的顺序图。
首先,服务器1300在1710步骤中从终端1200接收基于ID的私密化模型。在基于ID的私密化模型1273中,由ID来掩蔽了对应于个人信息1272的部分,因此即使暴露私密化模型也很难复原由ID来掩蔽的个人信息1272,从而可以保护个人信息1272。
之后,服务器1300从1720步骤中接收语音信号。服务器200可以通过多样的构成要素接收语音信号。虽然最为一般的形式是通过麦克风单元而接收语音信号的方式,然而还可以通过USB接口单元或者DVD接口单元等而接收语音信号。
接着,服务器1300在1730步骤中,利用基于ID的私密化模型1273而对语音信号进行数据处理。在此情况下,服务器1300以如下方式执行操作:根据与终端1200的事先协议而利用映射于声音单元的ID表示个人信息ID。以下参考图21和图22而进行说明。
参照图21,ID根据服务器1300和终端1200的协议而映射于声音单元。服务器1300把“洪吉童”这一语音信号识别为连续的声音的集合。因此,可以通过对声音“HH”授予事先与终端1200达成协议的ID即0x101并对声音“OW”授予0x102的方式来把“洪吉童”的语音信号表示为ID集合0x101、0x102、0x103、0x104、0x105、0x106、…。
服务器可以从来自终端1200的私密化模型1273中寻找与上述的音标ID集合对应的词语ID并使其对应于此。参照图22,0x01的ID映射于“洪吉童”的词语。因此,服务器1300可以把“洪吉童”的语音信号表示为对应于音标ID集合0x101、0x102、0x103、0x104、0x105、0x106、…的一个0x01的词语ID。服务器1300可以从终端1200接收私密化模型1372并进行数据处理,从而具有较高的性能,另外,服务器1300具有高运算能力,其可以快速地处理语音信号。
此外,服务器1300在1740步骤中把数据处理结果传输到终端1200。
结果,根据本发明公开的实施例,个人信息1272转化为无法掌握词语或者句子的内容的形式而传输到服务器1300,因此即使向外部暴露私密化模型也很难复原由ID来掩蔽的个人信息1272,从而可以保护个人信息1272。此外,在具有高运算能力的服务器1300中进行数据处理,从而可以实现一种具有更高的性能以及处理速度的语音处理系统。
图23是表示根据本发明公开的另一实施例的终端和服务器的具体工作过程的示例的顺序图。
首先,在2310步骤中,终端1200将ID对应于个人信息1272并生成映射表1273。终端1200利用个人信息1272的单词列表来生成发音词典1910,并可以利用发音词典1910而对音标和单词映射ID。在此情况下,终端1200可以授予任意的ID。
接着,在2320步骤中,终端1200利用映射表1273而生成基于ID的私密化模型1372,并在2330步骤中传输到服务器1300。服务器在2340步骤中把接收到的基于ID的私密化模型1372存储于存储单元1370。基于ID的私密化模型1372可以基于如图22所示出的词语ID2220以及声音单位ID 2230来生成。
之后,终端1200在2350步骤中接收语音信号,并在2360步骤中传输到服务器1300。如上所述,终端100可以通过多样的构成要素而接收语音信号。虽然最为一般的形式是通过麦克风单元而接收语音信号的方式,然而还可以通过USB接口单元或者DVD接口单元等而接收语音信号。此外,还可以通过与外部装置执行通信而接收语音信号。
服务器1300在2370步骤中利用基于ID的私密化模型而对接收到的语音信号进行数据处理,并在2380步骤中把数据处理结果传输到终端1200。在此情况下,服务器1300可以根据与终端1200之间的协议而利用映射于声音单元的ID来表示映射于个人信息1272或者附加信息的ID。
此后,在2390步骤中,终端1200利用数据处理结果以及映射表1273而使对应于ID的个人信息1272或者附加信息复原。
根据本发明公开的实施例,服务器1300从终端1200接收基于ID的私密化模型,并利用接收到的基于ID的私密化模型而进行数据处理,因此即使像外部暴露私密化模型也很难复原由ID来掩蔽的个人信息1272,从而可以保护个人信息1272。另外,具有高运算能力的服务器1300对语音信号进行数据处理,从而可以实现一种具有更高的性能以及处理速度的语音处理系统。
另外,上述的实施例可以由能够在计算机上运行的程序来实现,并可以利用可通过计算机读取的记录介质而在运行所述程序的通用数据计算机上实现。
所述可利用计算机读取的记录介质包括:磁性存储介质(例如,ROM、软盘、硬盘等)、光学读取介质(例如,CD-ROM、DVD等)以及载波(例如,通过网络的传输)等存储介质。
以上,参考附图说明了本发明的实施例,然而在本发明所属的技术领域中具有基本知识的人员皆可理解能够不改变其技术思想或基本特征而实施为其他具体形态。因此,应当理解以上记载的实施例在所有方面均为示例性的,而不是限定性的。

Claims (14)

1.一种终端的语音信号处理方法,实现了语音信号处理的安全性与迅捷性之间的最优平衡,其特征在于,包括如下步骤:
接收包括包含个人信息的私密化信息区间和作为所述私密化信息区间以外的区间的一般信息区间的语音信号;
将所述接收到的语音信号传输到服务器;
从所述接收到的语音信号中检测出所述私密化信息区间和所述一般信息区间;
针对所述语音信号中的与所述私密化信息区间对应的语音信号,利用作为针对特定个人的适合型语音处理模型的私密化模型而进行数据处理;以及针对所述语音信号中的与所述一般信息区间对应的语音信号跳过利用所述私密化模型的数据处理;
从所述服务器接收针对与所述一般信息区间对应的语音信号进行数据处理的结果,
其中,从所述服务器接收的针对与所述一般信息区间对应的语音信号进行数据处理的结果是所述服务器利用一般模型而对与所述一般信息区间对应的语音信号进行处理的结果。
2.如权利要求1所述的终端的语音信号处理方法,其特征在于,还包括如下步骤:
生成关于所述私密化信息区间和所述一般信息区间的第一语音区间信息并传输到所述服务器。
3.如权利要求2所述的终端的语音信号处理方法,其特征在于,所述第一语音区间信息包括:
区间标记信息,标记出所述语音信号中的所述私密化信息区间以及所述一般信息区间中的至少一个区间。
4.如权利要求1所述的终端的语音信号处理方法,其特征在于,还包括如下步骤:
从所述服务器接收关于所述私密化信息区间和所述一般信息区间的第二语音区间信息。
5.一种服务器的语音信号处理方法,实现了语音信号处理的安全性与迅捷性之间的最优平衡,其特征在于,包括如下步骤:
从终端接收包括包含个人信息的私密化信息区间和作为所述私密化信息区间以外的区间的一般信息区间的语音信号;
从所述接收到的语音信号中检测出所述私密化信息区间和所述一般信息区间;
针对所述接收到的语音信号中的与所述一般信息区间对应的语音信号,利用一般模型进行数据处理;以及
针对所述接收到的语音信号中的与所述私密化信息区间对应的语音信号跳过利用所述一般模型的数据处理;
将针对与所述一般信息区间对应的语音信号进行数据处理的结果传输到所述终端。
6.如权利要求5所述的服务器的语音信号处理方法,其特征在于,还包括如下步骤:
生成关于所述私密化信息区间和所述一般信息区间的第二语音区间信息,并将该信息传输到所述终端。
7.如权利要求6所述的服务器的语音信号处理方法,其特征在于,所述语音区间信息包括:
区间标记信息,标记出所述接收到的语音信号中的所述私密化信息区间以及所述一般信息区间中的至少一个区间。
8.如权利要求5所述的服务器的语音信号处理方法,其特征在于,还包括如下步骤:
从所述终端接收关于所述私密化信息区间和所述一般信息区间的第一语音区间信息。
9.一种终端,实现了语音信号处理的安全性与迅捷性之间的最优平衡,其特征在于,包括:
接收单元;
通信单元,用于与服务器执行通信;以及
控制单元,
其中,所述控制单元被配置为:
控制所述接收单元,接收包括包含个人信息的私密化信息区间和作为所述私密化信息区间以外的区间的一般信息区间的语音信号;
控制所述通信单元,将所述接收到的语音信号传输到服务器;
从所述接收到的语音信号中区分所述私密化信息区间和所述一般信息区间;
针对所述语音信号中的与所述私密化信息区间对应的语音信号,利用作为针对特定个人的适合型语音处理模型的私密化模型而进行数据处理;以及
针对所述语音信号中的与所述一般信息区间对应的语音信号跳过利用所述私密化模型的数据处理;
控制所述通信单元,从所述服务器接收针对与所述一般信息区间对应的语音信号进行数据处理的结果,
其中,从所述服务器接收的针对与所述一般信息区间对应的语音信号进行数据处理的结果是所述服务器利用一般模型而对与所述一般信息区间对应的语音信号进行处理的结果。
10.如权利要求9所述的终端,其特征在于,所述控制单元还被配置为:
生成关于所述私密化信息区间和所述一般信息区间的第一语音区间信息;
控制所述通信单元,将所述第一语言区间信息传输到所述服务器。
11.如权利要求10所述的终端,其特征在于,所述第一语音区间信息包括:
区间标记信息,标记出所述语音信号中的所述私密化信息区间以及所述一般信息区间中的至少一个区间。
12.一种服务器,实现了语音信号处理的安全性与迅捷性之间的最优平衡,其特征在于,包括:
接收单元;
通信单元,用于与终端执行通信;以及
控制单元,
其中,所述控制单元被配置为:
控制所述通信单元,从所述终端接收包括包含个人信息的私密化信息区间和作为所述私密化信息区间以外的区间的一般信息区间的语音信号;
从所述接收到的语音信号中检测出所述私密化信息区间和所述一般信息区间;
针对所述接收到的语音信号中的与所述一般信息区间对应的语音信号,利用一般模型进行数据处理;以及
针对所述接收到的语音信号中的与所述私密化信息区间对应的语音信号跳过利用所述一般模型的数据处理;
控制所述通信单元,将针对与所述一般信息区间对应的语音信号进行数据处理的结果传输到所述终端。
13.如权利要求12所述的服务器,其特征在于,所述控制单元还被配置为:
生成关于所述私密化信息区间和所述一般信息区间的第二语音区间信息;
控制所述通信单元,将所述第二语音区间信息传输到所述终端。
14.如权利要求13所述的服务器,其特征在于,所述第二语音区间信息包括:
区间标记信息,标记出所述接收到的语音信号中的所述私密化信息区间以及所述一般信息区间中的至少一个区间。
CN201510756263.XA 2014-11-07 2015-11-09 语音信号处理方法及实现此的终端和服务器 Active CN105592067B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010629273.8A CN111787012B (zh) 2014-11-07 2015-11-09 语音信号处理方法及实现此的终端和服务器

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201462076717P 2014-11-07 2014-11-07
US62/076,717 2014-11-07
KR1020150152525A KR102536944B1 (ko) 2014-11-07 2015-10-30 음성 신호 처리 방법 및 장치
KR10-2015-0152525 2015-10-30

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202010629273.8A Division CN111787012B (zh) 2014-11-07 2015-11-09 语音信号处理方法及实现此的终端和服务器

Publications (2)

Publication Number Publication Date
CN105592067A CN105592067A (zh) 2016-05-18
CN105592067B true CN105592067B (zh) 2020-07-28

Family

ID=54477973

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010629273.8A Active CN111787012B (zh) 2014-11-07 2015-11-09 语音信号处理方法及实现此的终端和服务器
CN201510756263.XA Active CN105592067B (zh) 2014-11-07 2015-11-09 语音信号处理方法及实现此的终端和服务器

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202010629273.8A Active CN111787012B (zh) 2014-11-07 2015-11-09 语音信号处理方法及实现此的终端和服务器

Country Status (3)

Country Link
US (2) US10319367B2 (zh)
EP (2) EP3690879A3 (zh)
CN (2) CN111787012B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3690879A3 (en) * 2014-11-07 2020-08-26 Samsung Electronics Co., Ltd. Speech signal processing method and speech signal processing apparatus
TWI698857B (zh) * 2018-11-21 2020-07-11 財團法人工業技術研究院 語音辨識系統及其方法、與電腦程式產品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102349068A (zh) * 2009-03-19 2012-02-08 微软公司 以客户端为中心的使用分类
CN102541505A (zh) * 2011-01-04 2012-07-04 中国移动通信集团公司 语音输入方法及其系统
CN103021403A (zh) * 2012-12-31 2013-04-03 威盛电子股份有限公司 基于语音识别的选择方法及其移动终端装置及信息系统
CN103137129A (zh) * 2011-12-02 2013-06-05 联发科技股份有限公司 语音识别方法及电子装置
CN103295575A (zh) * 2012-02-27 2013-09-11 北京三星通信技术研究有限公司 一种语音识别方法和客户端
CN103488785A (zh) * 2013-09-30 2014-01-01 北京奇虎科技有限公司 提供搜索服务的方法、系统及服务器

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6389394B1 (en) * 2000-02-09 2002-05-14 Speechworks International, Inc. Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations
CN1315721A (zh) * 2000-03-23 2001-10-03 韦尔博泰克有限公司 客户服务器语音信息传送系统与方法
US20060293898A1 (en) 2005-06-22 2006-12-28 Microsoft Corporation Speech recognition system for secure information
KR20100052271A (ko) * 2008-11-10 2010-05-19 삼성전자주식회사 개인 건강 정보의 통신 보안 방법 및 장치
JP5621993B2 (ja) * 2009-10-28 2014-11-12 日本電気株式会社 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム
US20130085753A1 (en) 2011-09-30 2013-04-04 Google Inc. Hybrid Client/Server Speech Recognition In A Mobile Device
US10354650B2 (en) 2012-06-26 2019-07-16 Google Llc Recognizing speech with mixed speech recognition models to generate transcriptions
US9047868B1 (en) * 2012-07-31 2015-06-02 Amazon Technologies, Inc. Language model data collection
US9032219B2 (en) * 2012-11-16 2015-05-12 Nuance Communications, Inc. Securing speech recognition data
US9131369B2 (en) * 2013-01-24 2015-09-08 Nuance Communications, Inc. Protection of private information in a client/server automatic speech recognition system
US9514741B2 (en) * 2013-03-13 2016-12-06 Nuance Communications, Inc. Data shredding for speech recognition acoustic model training under data retention restrictions
CN103794206B (zh) * 2014-02-24 2017-04-19 联想(北京)有限公司 将文本数据转换为语音数据的方法以及终端设备
EP3690879A3 (en) * 2014-11-07 2020-08-26 Samsung Electronics Co., Ltd. Speech signal processing method and speech signal processing apparatus

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102349068A (zh) * 2009-03-19 2012-02-08 微软公司 以客户端为中心的使用分类
CN102541505A (zh) * 2011-01-04 2012-07-04 中国移动通信集团公司 语音输入方法及其系统
CN103137129A (zh) * 2011-12-02 2013-06-05 联发科技股份有限公司 语音识别方法及电子装置
CN103295575A (zh) * 2012-02-27 2013-09-11 北京三星通信技术研究有限公司 一种语音识别方法和客户端
CN103021403A (zh) * 2012-12-31 2013-04-03 威盛电子股份有限公司 基于语音识别的选择方法及其移动终端装置及信息系统
CN103488785A (zh) * 2013-09-30 2014-01-01 北京奇虎科技有限公司 提供搜索服务的方法、系统及服务器

Also Published As

Publication number Publication date
EP3690879A3 (en) 2020-08-26
CN105592067A (zh) 2016-05-18
EP3690879A2 (en) 2020-08-05
US20160133249A1 (en) 2016-05-12
US10600405B2 (en) 2020-03-24
CN111787012B (zh) 2022-10-14
CN111787012A (zh) 2020-10-16
EP3018654B1 (en) 2020-05-06
US20190259375A1 (en) 2019-08-22
EP3018654A1 (en) 2016-05-11
US10319367B2 (en) 2019-06-11

Similar Documents

Publication Publication Date Title
US10192545B2 (en) Language modeling based on spoken and unspeakable corpuses
US10776582B2 (en) Supporting combinations of intents in a conversation
US9047868B1 (en) Language model data collection
US11164562B2 (en) Entity-level clarification in conversation services
CN107039038A (zh) 学习个性化实体发音
TW200900967A (en) Multi-mode input method editor
CN105531758A (zh) 使用外国单词语法的语音识别
CN108417222B (zh) 加权有限状态变换器解码系统以及语音识别系统
KR102536944B1 (ko) 음성 신호 처리 방법 및 장치
EP3550449A1 (en) Search method and electronic device using the method
Bispham et al. Nonsense attacks on google assistant and missense attacks on amazon alexa
CN105592067B (zh) 语音信号处理方法及实现此的终端和服务器
CN109635125B (zh) 一种词汇图谱搭建方法及电子设备
KR102342571B1 (ko) 다중 음성인식모듈을 적용한 음성 인식 방법 및 이를 위한 음성인식장치
CN116194925A (zh) 从非字符子标记信号中自动检测语言
CN114758665B (zh) 音频数据增强方法、装置、电子设备及存储介质
CN116150333A (zh) 文本匹配方法、装置、电子设备及可读存储介质
CN114860910A (zh) 智能对话方法及系统
CN113724690A (zh) Ppg特征的输出方法、目标音频的输出方法及装置
KR20230075386A (ko) 음성 신호 처리 방법 및 장치
CN108682437A (zh) 信息处理方法、装置、介质和计算设备
Engell TaleTUC: Text-to-Speech and Other Enhancements to Existing Bus Route Information Systems
KR20150042532A (ko) 복합 문장 분석 장치, 이를 위한 기록매체
Anand et al. LIP: Lightweight Intelligent Preprocessor for meaningful text-to-speech
KR20230037804A (ko) 전자 장치 및 전자 장치의 음성 처리 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant