CN111246469A - 人工智能保密通信系统及通信方法 - Google Patents

人工智能保密通信系统及通信方法 Download PDF

Info

Publication number
CN111246469A
CN111246469A CN202010145786.1A CN202010145786A CN111246469A CN 111246469 A CN111246469 A CN 111246469A CN 202010145786 A CN202010145786 A CN 202010145786A CN 111246469 A CN111246469 A CN 111246469A
Authority
CN
China
Prior art keywords
speech
voice
module
string
binary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010145786.1A
Other languages
English (en)
Other versions
CN111246469B (zh
Inventor
连芷萱
张瑜佳
杨嘉琪
马志
席跃东
席跃君
宋蔚旗
李敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hualande Technology Consulting Service Co ltd
Original Assignee
Beijing Hualande Technology Consulting Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hualande Technology Consulting Service Co ltd filed Critical Beijing Hualande Technology Consulting Service Co ltd
Priority to CN202010145786.1A priority Critical patent/CN111246469B/zh
Publication of CN111246469A publication Critical patent/CN111246469A/zh
Application granted granted Critical
Publication of CN111246469B publication Critical patent/CN111246469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/03Protecting confidentiality, e.g. by encryption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/02Protecting privacy or anonymity, e.g. protecting personally identifiable information [PII]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种人工智能保密通信系统和方法,属于人工智能技术领域。通信系统中,发信端通过语音识别模块将待发送的语音转换成文本单元串;根据通信双方约定的第一编码规则对文本单元串中的每个文本单元进行编码生成码串,而后将码串转换成待发送的二进制字符串;接收端根据通信双方约定的第一确码规则将接收的二进制字符串转换为码串;接收端根据通信双方约定的第一解码规则对码串进行分组,根据选择或对接收信息方所使用语音的识别选择接收信息方选择的语声模型或选择所识别的接收信息方使用的所语言的语声模型,从语料库中查找对应每组码的语声单元生成语声单元串。本发明提供的保密系统和方法编码速率低,大大节省了宝贵的无线频谱资源,且保密性好。

Description

人工智能保密通信系统及通信方法
技术领域
本发明涉及人工智能保密通信系统及通信方法,属于人工智能技术领域。
背景技术
图1是现有技术提供的保密通信系统,其发信端和收信端,发信端通过安全信道利用加密密钥对发信者产生的信息进行加密处理,收信端通过安全信道利用解密密钥对接收的加密信息进行解密处理而后提供给收信者。语音保密通信中,发信者输出的是幅度连续变化的信号,通过采样和量化可以将模拟信息变换为离散信息。发送设备基本功能是使不同种类和速率的信息源与传输媒介相匹配,通常是将信息源产生的信息经过编码,并变换为便于传送的信号形式,送往传输介质。编码包括信源编码与信道编码两部分。信源编码把连续消息变换为数字信号,信道编码则使数字信号与传输介质匹配,提高传输的可靠性和有效性。调制是多种变换方式中最常见的一种。发送设备还包括为达到某些特殊要求所进行的各种处理,如多路复用、保密处理、纠错编码处理等。传输介质是发送设备到接收设备之间信号传递所经过的媒介,例如:电磁波、红外线等无线传输介质,各种电缆、光缆、双绞线等有线传输介质。传输过程中必然会引入热噪声、衰减、脉冲等干扰。介质的固有特性和干扰特性直接关系到编码方式的选取。接收设备的基本功能是完成对发送的反变换(解调、译码、解密等),从带有干扰的信号中恢复出正确的原始信息;对于多路复用信号还包括解除多路复用和实现正确分路(或称输出扫描)。
其中,信源编码即模数转换,其包括抽样、量化和编码, 抽样就是对连续的模拟信号进行离散化处理,通常是以相等的时间间隔来抽取模拟信号的样值,量化将模拟信号样值变换到最接近的数字值。因抽样后的样值在时间上虽是离散的,但在幅度上仍是连续的,量化过程就是把幅度上连续的抽样也变为离散的。编码就是把量化后的样值信号用一组二进制数字代码来表示,最终完成模拟信号的数字化。为保证无失真的回复原信号,抽样频率至少为信号最高频率的两倍,语音信号频率范围是:300Hz~4.0kHz,为保证语音信号不失真,抽样频率设为8kHz。若量化级别为8位,则信源编码速率为64kb/s。为了提高通信网中的信息传输效率及实现语音的高效存储,需要对编码后的数字语音进行压缩,即语音压缩。在移动通信中,最重要的业务就是语音业务,宝贵的无线频谱资源要求每个用户占用的频段越窄越好,而占用频段的大小直接于通话语音的压缩率有关。现有技术中,欧洲、北美和日本在数字蜂窝移动通信系统中使用的语音压缩编码标准分别是13Kb/s的RPE-LTP、8Kb/s的VSELP及6.7Kb/s的VSELP)。语音压缩也应用在保密通信中,如美国国防部的采用CELP编码的4.8Kb/s的FS-1016和采用LPC编码的2.4Kb/s的FS-1015压缩编码标准的。
现有技术中提供的保密通信系统的编码速率较高,占用的无线频谱资源较大。
发明内容
为实现所述发明目的,本发明提供一种人工智能保密通信系统和方法, 其语音编码速率低,大大节省了宝贵的无线频谱资源
为实现所述发明目的,本发明提供一种人工智能保密通信系统,其包括发信设备和接收设备,所述发信设备至少包括信源编码器,其特征在于,信源编码器至少包括语音识别模块和编码模块,所述语音识别模块根据接收的语音数据或音频波形生在文本单元串,编码模块根据通信双方约定的第一编码规则对语言库串中的每个文本单元进行编码生成非二进制码串,每个文本单元对应一组非二进制码;而后将非二进制码串转换成待发送的二进制字符串;接收设备包括解码模块、AI模块和存储模块,解码模块将接收的二进制字符串转换为非二进制码串;存储模块至少包括语料库和多种语声模型;AI模块根据通信双方约定的第一解码规则对非二进制码串进行分组形成多组非二进制码,根据接收信息方的选择或对接收信息方所使用语言的识别从存储模块中选择接收信息方选择的语声模型或选择所识别的接收信息方使用的所语言的语声模型,从语料库中查找对应每组非二进制码的语声单元生成语声单元串,并根据所选择的语声模型将语声单元串生成正常语序的语音和/或文本。
优选地, 信源编码器包括变换模块,语音识别模块至少包括卷积神经网络, 变换单元将接收的语音数据或音频波形生成时间-频率-强度3D谱图;卷积神经网络包括多个卷积层,其根据3D谱图中的时间-频率2D谱图,将接收的语音数据或音频波形分成多个词形成文本单元串。
优选地,语音识别模块被配置为根据语音数据或音频波形的至少一个采样段训练卷积神经网络每个通道的权重。
优选地,所述语声单元包括字和词及其语音数据和/或音响特征值,音响特征值至少包括音调值和响度值;文本单元包括字和词。语声模型至少包括下列模型的一种或几种:语言模形、声学模形
优选地, 码串根据通信双方约定的第二编码规则转换成待发送的二进制字符串;解码模块根据第二解码规则将接收的二进制字符串转换为码串。
为实现所述发明目的,本发明还提供一种人工智能保密通信系统,其包括发信设备和接收设备,所述发信设备至少包括信源编码器,其特征在于,信源编码器至少包括语音识别模块和编码模块,所述语音识别模块根据接收的语音数据或音频波形生在文本单元串,编码模块根据通信双方约定的第一编码规则对语言库串中的每个文本单元进行编码生成非二进制码串,每个文本单元对应一组非二进制码;而后将非二进制码串转换成待发送的二进制字符串;接收设备包括解码模块、AI模块和存储模块,解码模块将接收的二进制字符串转换为非二进制码串;存储模块至少包括语料库和多种语声模型;AI模块根据通信双方约定的第一解码规则对非二进制码串进行分组形成多组非二进制码,根据接收信息方的选择或对接收信息方所使用语音的识别从存储模块中选择接收信息方选择的语声模型或选择所识别的接收信息方使用的所语言的语声模型,从语料库中查找对应每组非二进制码的语声单元生成语声单元串,并根据所选择的语声模型将语声单元串生成正常语序的语音和/或文本。
优选地, 信源编码器包括变换模块,语音识别模块至少包括卷积神经网络, 变换单元将接收的语音数据或音频波形生成时间-频率-强度3D谱图;卷积神经网络包括多个卷积层,其根据3D谱图中的时间-频率2D谱图,将接收的语音数据或音频波形分成多个词形成文本单元串。
优选地,语音识别模块被配置为根据语音数据或音频波形的至少一个采样段训练卷积神经网络每个通道的权重。
优选地,所述语声单元包括字和词及其语音数据和/或音响特征值,音响特征值至少包括音调值和响度值;文本单元包括字和词。语声模型至少包括下列模型的一种或几种:语言模形、声学模形
优选地, 编码模块根据通信双方约定的第二编码规则将码串转换成待发送的二进制字符串;解码模块根据第二解码规则将接收的二进制字符串转换为码串。
为实现所述发明目的,本发明还提供一种人工智能保密通信方法,其特征在于,发信端通过语音识别模块将待发送的语音数据或音频波形转换成文本单元串;根据通信双方约定的第一编码规则通过编码模块对文本单元串中的每个词进行编码生成码串,而后将码串转换成待发 送的二进制字符串;接收端通过解码模块根据通信双方约定的第一确码规则将接收的二进制字符串转换为码串;接收端通过AI模块根据通信双方约定的第一解码规则对码串进行分组,根据接收信息的用方的选择或对接收信息方所使用语音的识别从存储模块中选择接收信息方选择的语声模型或选择所识别的接收信息方使用的所语音的语声模型,从语料库中查找对应每组码的语声单元生成语声单元串,并根据所选择的语声模型将语声单元串生成正常语序的语音和/或文本。
优选地, 信源编码器包括变换模块,语音识别模块至少包括卷积神经网络, 变换单元将接收的语音数据或音频波形生成时间-频率-强度3D谱图;卷积神经网络包括多个卷积层,其根据3D谱图中的时间-频率2D谱图,将接收的语音数据或音频波形分成多个文本单元形成文本单元串。
优选地,语音识别模块被配置为根据语音数据或音频波形的至少一个采样段训练卷积神经网络每个通道的权重。
优选地,所述语声单元包括字和词及其语音数据和/或音响特征值,音响特征值至少包括音调值和响度值;文本单元包括字和词;语声模型至少包括下列模型的一种或几种:语言模形、声学模形。
优选地, 编码模块根据通信双方约定的第二编码规则将码串转换成待发送的二进制字符串;解码模块根据第二解码规则将接收的二进制字符串转换为码串。
与现有技术相比,本发明提供的人工智能保密通信系统及方法,由于发信端先对语音进行识别形成多个文本单元,对文本单元根据通信双方约定的编码规则进行编码生成由多组非二进制码组成的码串,而后将非二进制码串转换为待发送的二进制字符串,接收端将接收的二进制字符串分成多组非二进制码,根据双方约定的解码规则从语料库中找查语声单元,并根据语声单元合成语音和/或文。本如此,需要传送的二进字码流大大减少,从而降低了语音编码速率,大大节省了宝贵的无线频谱资源。
附图说明
图1是现有技术提供的保密通信系统的组成框图;
图2是本发明提供的人工智能通信系统的组成框图;
图3是本发明提供的时间-频率-强度3D图谱;
图4是本明提供的语音识别模块的组成框图。
具体实施方式
下面结合附图详细地说明本发明。
本发明中,单数形式“一”,“一个”,“所述”和“该”包括复数引用,除非上下文另外明确指出。除非另有定义,本文所用的所有技术和科学术语具有与本领域普通技术人员通常理解的相同的含义。本发明中,术语"包括"是指"包括但不限于",除非另有定义。
术语" 语音识别模块"、“编码模块”、”解码模块“和" AI模块"中的每一个都指被配置可通过为具有编程功能的集成电路硬件或者软件来实现,集成电路"包含半导体材料(例如硅)上的电子电路,用于执行某些功能。例如,集成电路可以是微处理器,可编程阵列逻辑( PAL )器件、专用集成电路( ASIC )或其它。
图2是本发明提供的人工智能通信系统的组成框图,如图2所示,根据本发明提供的人工智能通信系统包括发信设备和接收设备。所述发信设备包括:信源编码器2、信道编码器3和发射机4,所述信源编码器2将语音源1的语音数据或音频波形生成待发送的二进制字符串,信道编码器3把信源编码器2输出的二进制字符串进行处理,变换为待发送的二进制序列,使待发送的二进制序列的各码元所载荷的平均信息量最大,同时又能保证正确地传递信息。所述发射机4包括用于将信道编码器3所输出的信号调制到高频率上的调制器、用于放大调制器所输出的信号的末级功率放大器、用于对末级功率放大器的输出阻抗与发射天线的输入阻抗进行匹配的输出滤波器和用于将经末级功率放大的电信号变成磁信号并发射到空间的发射天线。
信源编码器2至少包括变换模块21和语音处理单元22,其中,变换模块21用于将语音源1产生的语音数据或音频波形转换为时间-频率-强度3D图谱语音数据,即变换模块21对时域信号进行分帧、加窗、傅里叶变换、滤波得到3D图谱。语音处理单元22至少包括语音识别模块221和编码模块222,所述语音识别模块元221根据3D图谱语音数据中的时间-频率2D图谱语音数据生成独立的文本单元串,编码模块222根据通信双方约定的第一编码规则对文本单元串中的每个文本单元进行编码生成非二进制码串,而后将非二进制码串转换成待发送的二进制字符串。本发明中,语音处理单元22至少包括处理器和存储模块,存储模块中存储有用于对语音数据和/或音频波进行分词和编码的程序,处理器调该程序以对语音数据和/或音频波进行分词和编码形成码串,而后将码串转换为待发送的二进制字符串。本发明中,文本单元包括字和词。
根据本发明一个实施例,优选地,非二进制码串根据通信双方约定的第二编码规则转换成待发送的二进制字符串。
本发明中,语音识别模块221至少包括卷积神经网络(CNN), 卷积神经网络包括多个卷积层,其根据3D谱图中的时间-频率2D谱图,将接收的语音数据或音频波形转换成多个文本单元形成文本单元串。
本发明中,编码模块222用于对文本单元串中的每个文本单元进行编码生成待发送的二进制字符串具体包括:先将文本单元串中的每个文本单元根据通信方约定的第一编码规则成非二进制的码串,而后根据通信双方约定的第二编码规则将每个非二进制的码转换成二进制字符串,所述非二进制码为2的N次方码,所述N大于或等于2。
本发明中,例如,若用五位八进制(2的3次方)字符表示一个文本单元,因一位八进制数可对8个词进行不同的编码,则五位八进制具有85=326768种不同的组合,因此可对326768多个文本单元进行不同的编码,远远满足工作和生活的需要。这种情况下,若语音识别模块221将播音员较快语速的1秒语音片段分成约5个词或字,编码模块将每个词编码成五位八进制码,每位八进制可转换成三位二进制,侧每个词或字需要15位二进制字符进行编码,则5个词或字转换成75位待发送的二进制字符串,即编码速率为0.075Kb/s,利用本发明提供的编码方法对语音数据进行编码,编码速率比现有技术中任何一种语音编码速率都低。
以日常工作和生活经常用的4000字来计算,只需要12位二进制数来对212=4096个字进行编码,则12位二进制数可转换成三位十六(2的4次方)进制数的码或四位八(2的3次方)进制的码,如此,将播音员较快语速的1秒语音片段分成约5个字,则每个字需要12位二进制字符来编码,则5个转字转换成60位待发送的二进制字符串,即编码速率为0.06Kb/s,利用本发明提供的编码方法对语音数据进行编码,编码速率比现有技术中任何一种语音编码速率都低。
在通信中,语音编码速率越低,其占用的无线频谱越少。而本发明的语音编码速率远远低于现有技术中的任一种语音编码速率,大大节省了宝贵的无线频谱资源。
本发明中,接收设备包括接收机5、信道译码器6、语音处理单元7、存储模块10、发音装置8和显示屏9,所述显示屏可以为触摸显示屏。所述接收机5包括用于将空间磁信号变成电信号的接收天线,用于将接收天线所接收的电信号进行放大的小信号放大器,用于将小信号放大器所放大的信号与本级振荡器所产生的本振信号进行下变频形成中频信号的混频器,用于将中频信号进行模数变换形成数据信号的模数变换器。信道译码器6对接收机5提供的数据进行信道译码生成发送端发送的二进制字符串。语音处理单元7包括解码模块72和AI模块71,存储模块10至少包括语料库和多种语声模型,所述解码模块72根据通信双方约定的第二解码规则将接收的二进制字符串转换成非二进制码串,并将二非进制码串分成多组非二进制码,AI模块71根据接收信息方的选择或对接收信息方所使用语音的识别从存储模块中10选择接收信息方选择的语声模型或选择AI模块71所识别的接收信息方所使用的语音的语声模型,并根据通信双方约定的第一解码规则从语料库中查找每组非二进制码对应的语声单元生成语声单元串;根据所选择的语声模型将语声单元串生成正常语序的语音和/或文本,语音通过发音装置8转换为声波,文本可通过显示屏9进行显示。语音处理单元7至少包括处理器和存储模块,存储模块中存储有语声处理应用程序,处理器调该程序以对接收的二进制字符串进行处理,从而合成语音和/或者形成文本。
本发明中,所述语声单元包括字和词及其语音数据和/或音响特征值,音响特征值至少包括音调值和响度值;语声模型至少包括下列模型的一种或几种:语言模形、声学模形。
本发明中,语声模型可包括多种语声模型,如汉语、英语、日语、方言等。本发明提供的方法和系统不仅大大减小了编码速率,而且根据用户的选择可进行语种互译,大大地提高了通信双方交流的便利性。
本发明中,通信双方根据只有彼此知道及约定的第一编码规则对文本单元进行编码生在非二进制码串,根据第二编码规则将非二进制码转换为二进制字符串,根据第一解码规则通过每组非二进制码从语料库中查找语声单元,根据第二解码规则将二进制字符串分成多组非二进制码串,如此可增加通信的保密性,且可用明网来传送保密信息。
例如,根据保密通信双方约定的规则,可以如下表根据第二编码规则将二进制字符串转换成八进制码,或者根据第二解码规则将八进制码转换成二进制字符串:
二进制字符串 000 001 010 011 100 101 110 111
八进制码 7 6 5 4 3 2 1 0
本发明中,语音数据可包括音频波形的一个或一个以上片段。音频波形的片段可以包括例如语音或语音的音频波形,例如包括各种语种任意长度的音节、单词、短语、口语句子和/或语音对话。语音源可以是直接从诸如麦克风的音频捕获设备接收语音信号的一段波形。语音数据还可包括从存储器检索的语音数据,如标准语音数据。存储器例如可以包含由音频捕获设备捕获的语音数据。存储器还可以包含由诸如摄像机的视频捕获设备捕获的视频数据。本发明提供的系统和/或方法可以检索视频数据并从视频数据中提取音频数据。
本发明中,发送设备利用变换器21将待发送的语音生成时间-频率-强度3D序列。例如,每个时间-频率-强度3D序列可以是谱图。3D谱图可以包括像素( x , y ,z)的阵列。
图3是本发明提供的时间-频率-强度3D图谱,如图3所示, x 表示音频波形的段中的时间, y 表示音频波形的段中的频率,z表示每个像素( x , y )具有表示音频波形的段在时间 x 和频率 y 处的音频强度的值。另外,可选地,本发明提供的语音识别模块可以基于时间-频率阵列生成梅尔频率倒谱( MFC ),使得时间-频率阵列中的每个像素变为 MFC系数( MFCC ),即z值。在一些情况下, MFCC 阵列可以为数据编码提供均匀分布的功率谱,这可以允许语音别单元提取独立于说话者的特征。每个时间-频率2D阵列可以表示在时间步长处的语音信号的2D谱图。在声音场景中,在语音识别中,时间-频率2D阵列序列中的每个时间步长可以被选择为较小,以捕获语音信号的某些瞬态特性。
本发明在非限制性示例中,在语音应用中,时间-频率2D谱图中时间轴x的时间步长可以相等地间隔,例如10ms或50ms,换句话说,序列中的每个2D谱图可以表示10ms或50ms跨度中的时间-频率阵列。该持续时间表示语音信号的音频波形中的时间周期。时间-频率2D阵列的序列可以被加载到语音识别模块的 CNN 的第一层。强度轴z中的时间步长可以允许 CNN 中的第一层能够在小时间窗口中看到更多样本。然而,序列中的每个时间-频率2D阵列可以具有低分辨率,这将允许CNN 层包括覆盖音频波形中的较长时间跨度的数据,结果是,可以提高语音识别的精度。因为 CNN 中的滤波器能够覆盖较长的时间帧,所以它可以捕获语音的一些瞬态特性,例如"音调",短或长的声音等。
本发明中,CNN训练方法可以包括:接收一组样本训练语音数据,其可以包括一个或多个片段族音频波形;以及使用该组样本训练语音数据来生成样本时间-频率-强度3D谱图的一个或多个序列。CNN训练过程还可以包括:使用样本3D谱图的一个或多个序列来训练CNN的一个或多个权重,经训练的权重将用于生成语音识别结果。在训练 CNN 的一个或多个权重时,识别方法可以包括:对于每组样本训练语音数据,接收所述样本训练语音数据所属类别的指示。类的类型和类的数量取决于语音识别任务。例如,被设计成识别语音是来自男性还是女性说话者。语音识别任务可以包括将任何输入数据分配给男性或女性说话者类别的二进制分类器,相应地,训练过程可以包括接收每个训练样本的样本是来自男性还是女性说话者的指示。语音识别任务还可以被设计成基于说话者的语音来验证说话者身份。语音识别任务可以被设计成识别语音输入的内容,例如音节、单词、短语或句子。在这些情况的每一种中,CNN 可以包括将每个输入语音数据段分配到多个类别之一中的多类别分类器。
可替换地,在一些场景中,语音识别任务可以包括特征提取,其中语音识别结果可以包括向量,该向量对于给定类别的样本可以是不变的。在 CNN 中,训练和识别都可以使用类似的方法。例如,该系统可以使用 CNN 中的任何完全连接层。
本发明的语音识别模块可以采用现有技术中的任一语音识别模块,图4是本明提供的语音识别模块的组成框图,如图4所示,语音识别模块包括卷积神经网络(CNN),其利用时间-频率2D谱图做为输入,通过较多的卷积层和池化层的组合,实现对整个语句的建模以将语音片段分解成文本单元串。
卷积神经网络(CNN)具有六个卷积层、三个池化层、两个全连接层和SoftMax 层,第一卷积层使用Con 3×3的卷积核对2D谱图进行卷积,其具有32个滤波器,输出32个特征;第二卷积层使用Con 3×3的卷积核对第一卷积层输出的谱图进行卷积,其具有32个滤波器,输出32个特征,然后使用第一最大池化Max pooling3×3提取最大参数;第三卷积层使用Con3×3的卷积核对第一最大池化层输出的谱图进行卷积,其具有64个滤波器,输出64个特征;第四卷积层使用Con3×3的卷积核对第三卷积层输出的谱图进行卷积,其具有64个滤波器,输出64个特征,然后使用第二最大池化Max pooling3×3提取最大参数;第五卷积层使用Con3×3的卷积核对第最二最大池化层输出的谱图进行卷积,其具有128个滤波器,输出128个特征;第六卷积层Con3×3的卷积核对第五卷积层输出的谱图进行卷积,其具有128个滤波器,输出128个特征,然后使用第三最大池化Max pooling3×3提取最大参数,最后接入依次相连的两个全连接层(fully connected),最后进入SoftMax 层回归进行文本单元划分。语音识别模块221可以使用最后一完全连接层来存储特征向量。根据特征向量的大小可以有各种配置。大的特征向量可能导致分类任务的大容量和高精度,而过大的特征向量可能降低执行语音识别任务的效率。
容易理解的是,本发明在说明书和附图的总体描述总体解决方案可以被设计成多种不同的结构。因此,说明书和附图中所表示的各种实现方式更详细的描述并非旨在限制本公开的范围,而仅表示各种示例性的实现方式。虽然在附图中示出了本解决方案的各个方面,但是除非特别指出,否则附图不必按比例绘制。本发明所描述的实施例在所有方面都被认为仅仅是说明性的而不是限制性的。因此,本发明的保护范围是:由权利要求而不是该说明书的详细描述确定。在权利要求的等同物的含义和范围内的所有改变都包括在其范围内。

Claims (10)

1.一种人工智能保密通信系统,其包括发信设备和接收设备,所述发信设备至少包括信源编码器,其特征在于,信源编码器至少包括语音识别模块和编码模块,所述语音识别模块根据接收的语音数据或音频波形生在文本单元串,编码模块根据通信双方约定的第一编码规则对语言库串中的每个文本单元进行编码生成非二进制码串,每个文本单元对应一组非二进制码;而后将非二进制码串转换成待发送的二进制字符串;接收设备包括解码模块、AI模块和存储模块,解码模块将接收的二进制字符串转换为非二进制码串;存储模块至少包括语料库和多种语声模型;AI模块根据通信双方约定的第一解码规则对非二进制码串进行分组形成多组非二进制码,根据接收信息方的选择或对接收信息方所使用语音的识别从存储模块中选择接收信息方选择的语声模型或选择所识别的接收信息方使用的所语言的语声模型,从语料库中查找对应每组非二进制码的语声单元生成语声单元串,并根据所选择的语声模型将语声单元串生成正常语序的语音和/或文本。
2.根据权利要求1所述的人工智能保密通信系统,其特征在于, 信源编码器包括变换模块,语音识别模块至少包括卷积神经网络, 变换单元将接收的语音数据或音频波形生成时间-频率-强度3D谱图;卷积神经网络包括多个卷积层,其根据3D谱图中的时间-频率2D谱图,将接收的语音数据或音频波形分成多个词形成文本单元串。
3.根据权利要求1-2任一所述的人工智能保密通信系统,其特征在于,语音识别模块被配置为根据语音数据或音频波形的至少一个采样段训练卷积神经网络每个通道的权重。
4.根据权利要求1-3任一所述的人工智能保密通信系统,其特征在于,所述语声单元包括字和词及其语音数据和/或音响特征值,音响特征值至少包括音调值和响度值;文本单元包括字和词;语声模型至少包括下列模型的一种或几种:语言模形、声学模形。
5.根据权利要求1-4任一所述的人工智能保密通信系统,其特征在于, 编码模块根据通信双方约定的第二编码规则将码串转换成待发送的二进制字符串;解码模块根据第二解码规则将接收的二进制字符串转换为码串。
6.一种人工智能保密通信方法,其特征在于,发信端通过语音识别模块将待发送的语音数据或音频波形转换成文本单元串;根据通信双方约定的第一编码规则通过编码模块对文本单元串中的每个词进行编码生成码串,而后将码串转换成待发 送的二进制字符串;接收端通过解码模块根据通信双方约定的第一确码规则将接收的二进制字符串转换为码串;接收端通过AI模块根据通信双方约定的第一解码规则对码串进行分组,根据接收信息的用方的选择或对接收信息方所使用语音的识别从存储模块中选择接收信息方选择的语声模型或选择所识别的接收信息方使用的所语音的语声模型,从语料库中查找对应每组码的语声单元生成语声单元串,并根据所选择的语声模型将语声单元串生成正常语序的语音和/或文本。
7.根据权利要求6所述的人工智能保密通信方法,其特征在于, 信源编码器包括变换模块,语音识别模块至少包括卷积神经网络, 变换单元将接收的语音数据或音频波形生成时间-频率-强度3D谱图;卷积神经网络包括多个卷积层,其根据3D谱图中的时间-频率2D谱图,将接收的语音数据或音频波形分成多个文本单元形成文本单元串。
8.根据权利要求6-7任一所述的人工智能保密通信系统,其特征在于,语音识别模块被配置为根据语音数据或音频波形的至少一个采样段训练卷积神经网络每个通道的权重。
9.根据权利要求6-8任一所述的人工智能保密通信方法,其特征在于,所述语声单元包括字和词及其语音数据和/或音响特征值,音响特征值至少包括音调值和响度值;文本单元包括字和词;语声模型至少包括下列模型的一种或几种:语言模形、声学模形。
10.根据权利要求6-9任一所述的人工智能保密通信方法,其特征在于, 编码模块根据通信双方约定的第二编码规则将码串转换成待发送的二进制字符串;解码模块根据第二解码规则将接收的二进制字符串转换为码串。
CN202010145786.1A 2020-03-05 2020-03-05 人工智能保密通信系统及通信方法 Active CN111246469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010145786.1A CN111246469B (zh) 2020-03-05 2020-03-05 人工智能保密通信系统及通信方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010145786.1A CN111246469B (zh) 2020-03-05 2020-03-05 人工智能保密通信系统及通信方法

Publications (2)

Publication Number Publication Date
CN111246469A true CN111246469A (zh) 2020-06-05
CN111246469B CN111246469B (zh) 2020-10-16

Family

ID=70880123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010145786.1A Active CN111246469B (zh) 2020-03-05 2020-03-05 人工智能保密通信系统及通信方法

Country Status (1)

Country Link
CN (1) CN111246469B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113178187A (zh) * 2021-04-26 2021-07-27 北京有竹居网络技术有限公司 一种语音处理方法、装置、设备及介质、程序产品
CN114221786A (zh) * 2021-11-17 2022-03-22 西安空间无线电技术研究所 一种基于脉冲压缩的新型通信硬件加密系统及方法
CN116306391A (zh) * 2023-02-28 2023-06-23 深圳市摩尔芯创科技有限公司 一种用于集成电路设计的字符串处理系统与方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101257354A (zh) * 2008-04-15 2008-09-03 哈尔滨工程大学 一种低码率的水下语音通信方法
WO2011004097A1 (fr) * 2009-07-07 2011-01-13 France Telecom Codage/décodage perfectionne de signaux audionumériques
EP2567346A1 (en) * 2010-05-05 2013-03-13 Digimarc Corporation Hidden image signaling
CN109065029A (zh) * 2018-10-10 2018-12-21 内蒙古工业大学 一种小规模语料dnn-hmm声学模型
CN109697974A (zh) * 2017-10-19 2019-04-30 百度(美国)有限责任公司 使用卷积序列学习的神经文本转语音的系统和方法
CN109840287A (zh) * 2019-01-31 2019-06-04 中科人工智能创新技术研究院(青岛)有限公司 一种基于神经网络的跨模态信息检索方法和装置
CN110263322A (zh) * 2019-05-06 2019-09-20 平安科技(深圳)有限公司 用于语音识别的音频语料筛选方法、装置及计算机设备
CN110383377A (zh) * 2017-03-13 2019-10-25 三菱电机株式会社 语音识别系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101257354A (zh) * 2008-04-15 2008-09-03 哈尔滨工程大学 一种低码率的水下语音通信方法
WO2011004097A1 (fr) * 2009-07-07 2011-01-13 France Telecom Codage/décodage perfectionne de signaux audionumériques
EP2567346A1 (en) * 2010-05-05 2013-03-13 Digimarc Corporation Hidden image signaling
CN110383377A (zh) * 2017-03-13 2019-10-25 三菱电机株式会社 语音识别系统
CN109697974A (zh) * 2017-10-19 2019-04-30 百度(美国)有限责任公司 使用卷积序列学习的神经文本转语音的系统和方法
CN109065029A (zh) * 2018-10-10 2018-12-21 内蒙古工业大学 一种小规模语料dnn-hmm声学模型
CN109840287A (zh) * 2019-01-31 2019-06-04 中科人工智能创新技术研究院(青岛)有限公司 一种基于神经网络的跨模态信息检索方法和装置
CN110263322A (zh) * 2019-05-06 2019-09-20 平安科技(深圳)有限公司 用于语音识别的音频语料筛选方法、装置及计算机设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113178187A (zh) * 2021-04-26 2021-07-27 北京有竹居网络技术有限公司 一种语音处理方法、装置、设备及介质、程序产品
CN114221786A (zh) * 2021-11-17 2022-03-22 西安空间无线电技术研究所 一种基于脉冲压缩的新型通信硬件加密系统及方法
CN114221786B (zh) * 2021-11-17 2024-03-26 西安空间无线电技术研究所 一种基于脉冲压缩的新型通信硬件加密系统及方法
CN116306391A (zh) * 2023-02-28 2023-06-23 深圳市摩尔芯创科技有限公司 一种用于集成电路设计的字符串处理系统与方法
CN116306391B (zh) * 2023-02-28 2024-01-02 师细会 一种用于集成电路设计的字符串处理系统与方法

Also Published As

Publication number Publication date
CN111246469B (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111246469B (zh) 人工智能保密通信系统及通信方法
TW318239B (zh)
US11763801B2 (en) Method and system for outputting target audio, readable storage medium, and electronic device
CN113436609B (zh) 语音转换模型及其训练方法、语音转换方法及系统
JP2004523788A (ja) 音声認識モデルの効率的な記憶のためのシステムおよび方法
CN113053357A (zh) 语音合成方法、装置、设备和计算机可读存储介质
CN113539232A (zh) 一种基于慕课语音数据集的语音合成方法
CN111724809A (zh) 一种基于变分自编码器的声码器实现方法及装置
CN112908293B (zh) 一种基于语义注意力机制的多音字发音纠错方法及装置
CN111199747A (zh) 人工智能通信系统及通信方法
JPH0576040B2 (zh)
CN106256001A (zh) 信号分类方法和装置以及使用其的音频编码方法和装置
Chou et al. Variable dimension vector quantization of linear predictive coefficients of speech
CN114220414A (zh) 语音合成方法以及相关装置、设备
CN113724690A (zh) Ppg特征的输出方法、目标音频的输出方法及装置
US20030065512A1 (en) Communication device and a method for transmitting and receiving of natural speech
CN111210812A (zh) 一种人工智能语音中转系统
CN117636842B (zh) 基于韵律情感迁移的语音合成系统及方法
Ma et al. Design and research of MELP vocoder based on Beidou voice communication
JPH03241399A (ja) 音声送受信装置
JPH046600A (ja) 音声認識装置
US20020116180A1 (en) Method for transmission and storage of speech
CN117594035A (zh) 多模态语音分离识别方法、装置、冰箱及存储介质
CN117476031A (zh) 一种噪声环境下耳机通话语音增强方法及系统
CN117351974A (zh) 一种语音转换方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Ying Zhongyu

Inventor after: Lian Zhixuan

Inventor after: Yang Jiaqi

Inventor after: Zhang Yujia

Inventor after: Ma Zhi

Inventor after: Xi Yuedong

Inventor after: Xi Yuejun

Inventor after: Li Min

Inventor after: Song Weiqi

Inventor before: Lian Zhixuan

Inventor before: Zhang Yujia

Inventor before: Yang Jiaqi

Inventor before: Ma Zhi

Inventor before: Xi Yuedong

Inventor before: Xi Yuejun

Inventor before: Song Weiqi

Inventor before: Li Min

GR01 Patent grant
GR01 Patent grant