CN108369807A - 在电信期间发送语音对话的转录本 - Google Patents
在电信期间发送语音对话的转录本 Download PDFInfo
- Publication number
- CN108369807A CN108369807A CN201680072725.9A CN201680072725A CN108369807A CN 108369807 A CN108369807 A CN 108369807A CN 201680072725 A CN201680072725 A CN 201680072725A CN 108369807 A CN108369807 A CN 108369807A
- Authority
- CN
- China
- Prior art keywords
- user equipment
- voice
- voice data
- user
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013518 transcription Methods 0.000 claims abstract description 64
- 230000035897 transcription Effects 0.000 claims abstract description 64
- 238000000034 method Methods 0.000 claims abstract description 32
- 230000005540 biological transmission Effects 0.000 claims description 25
- 238000004891 communication Methods 0.000 description 51
- 230000006870 function Effects 0.000 description 33
- 238000012545 processing Methods 0.000 description 19
- 230000009471 action Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 201000006549 dyspepsia Diseases 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 102000042022 Rab family Human genes 0.000 description 1
- 108091079902 Rab family Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72475—User interfaces specially adapted for cordless or mobile telephones specially adapted for disabled users
- H04M1/72478—User interfaces specially adapted for cordless or mobile telephones specially adapted for disabled users for hearing-impaired users
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M11/00—Telephonic communication systems specially adapted for combination with other electrical systems
- H04M11/06—Simultaneous speech and data transmission, e.g. telegraphic transmission over the same conductors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M11/00—Telephonic communication systems specially adapted for combination with other electrical systems
- H04M11/10—Telephonic communication systems specially adapted for combination with other electrical systems with dictation recording and playback systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42391—Systems providing special services or facilities to subscribers where the subscribers are hearing-impaired persons, e.g. telephone devices for the deaf
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M7/00—Arrangements for interconnection between switching centres
- H04M7/0024—Services and arrangements where telephone services are combined with data services
- H04M7/0042—Services and arrangements where telephone services are combined with data services where the data service is a text-based messaging service
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42382—Text-based messaging services in telephone networks such as PSTN/ISDN, e.g. User-to-User Signalling or Short Message Service for fixed networks
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Computer Networks & Wireless Communication (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
本文公开了用于在电信期间发送语音对话的转录本的方法和系统。在一个方面,参与同至少第二用户设备的语音呼叫的第一用户设备,接收来自第一用户设备的用户的语音数据,将来自第一用户设备的用户的语音数据转换成该语音数据的语音转文本转录本,在第一信道上向第二用户设备发送该语音数据,并且在第二信道上向第二用户设备发送该语音数据的语音转文本转录本。
Description
技术领域
概括地说,本公开内容的方面涉及电信,具体地说,本公开内容的方面涉及在电信期间发送语音对话的转录本等等。
背景技术
无线通信设备用于很多不同的环境,但有时听者难以理解说话者讲的话。例如,在较差的无线通信信道状况、拥塞的网络、高干扰等等情况下,通常会丢失(例如,IP承载语音(VoIP)呼叫中的)语音分组,故听者变得很难理解说话者在说什么。再举一个例子,在不匹配的环境的情况下(例如,当说话者处于安静环境,但听者处于嘈杂环境时),听者可能不能正确地感知对话。再举一个例子,听者可能由于说话者的口音,而感到难以理解说话者。
发明内容
下面给出了与本文所公开的一个或多个方面和/或实施例有关的简单概括。因此,下面的概括部分不应被认为是与所有预期方面和/或实施例有关的详尽概述,也不应将下面的概括部分视作为用于识别与所有预期方面和/或实施例有关的关键或重要要素,或者用于描述与任何特定方面和/或实施例相关联的范围。因此,下面的概括部分的唯一目的是用简单的形式,呈现与同本文所公开的机制有关的一个或多个方面和/或实施例相关的某些概念,以此作为后面给出的具体实施方式的前奏。
一种用于在电信期间发送语音对话的转录本的方法包括:在参与同至少第二用户设备的语音呼叫的第一用户设备处,接收来自第一用户设备的用户的语音数据;由第一用户设备,将来自第一用户设备的用户的语音数据转换成该语音数据的语音转文本转录本;由第一用户设备,在第一信道上向第二用户设备发送该语音数据;以及由第一用户设备,在第二信道上向第二用户设备发送该语音数据的语音转文本转录本。
一种用于在电信期间发送语音对话的转录本的装置包括:第一用户设备的至少一个收发机,其被配置为接收来自第一用户设备的用户的语音数据,第一用户设备参与同至少第二用户设备的语音呼叫;以及第一用户设备的至少一个处理器,其被配置为将来自第一用户设备的用户的语音数据转换成该语音数据的语音转文本转录本,其中,所述至少一个收发机还被配置为:在第一信道上向第二用户设备发送该语音数据,并且在第二信道上向第二用户设备发送该语音数据的语音转文本转录本。
一种用于在电信期间发送语音对话的转录本的装置包括:用于在参与同至少第二用户设备的语音呼叫的第一用户设备处,接收来自第一用户设备的用户的语音数据的单元;用于通过第一用户设备,将来自第一用户设备的用户的语音数据转换成该语音数据的语音转文本转录本的单元;用于通过第一用户设备,在第一信道上向第二用户设备发送该语音数据的单元;以及用于通过第一用户设备,在第二信道上向第二用户设备发送该语音数据的语音转文本转录本的单元。
一种用于在电信期间发送语音对话的转录本的非临时性计算机可读介质包括:用于在参与同至少第二用户设备的语音呼叫的第一用户设备处,接收来自第一用户设备的用户的语音数据的至少一条指令;用于通过第一用户设备,将来自第一用户设备的用户的语音数据转换成该语音数据的语音转文本转录本的至少一条指令;用于通过第一用户设备,在第一信道上向第二用户设备发送该语音数据的至少一条指令;以及用于通过第一用户设备,在第二信道上向第二用户设备发送该语音数据的语音转文本转录本的至少一条指令。
基于所附的附图和具体实施方式,与本文所公开的方面和实施例相关联的其它对象和优点对于本领域普通技术人员将是显而易见的。
附图说明
由于通过当结合附图来考虑对下面的具体实施方式的引用时,能更好地理解本公开内容的实施例,因此将容易获得这些实施例的更完整理解以及其多个附带优点,呈现这些附图只是用于对本公开内容进行说明而不是限制,并且其中:
图1示出了根据本公开内容的实施例的无线通信系统的高层系统架构。
图2示出了根据本公开内容的实施例的用户设备(UE)的例子。
图3示出了包括用于执行本文所公开的功能的结构部件的通信设备。
图4A示出了根据本公开内容的至少一个方面的源用户设备和目的用户设备之间的示例性通信的高层图。
图4B更详细地示出了图4A的源用户设备和目的用户设备。
图5示出了根据本公开内容的至少一个方面的用于在电信期间发送语音对话的转录本的示例性流程。
图6示出了用于在电信期间发送语音对话的转录本的示例性流程。
图7是被配置为支持如本文所教示的通信的装置的若干示例性方面的简化框图。
具体实施方式
本文公开了用于在电信期间发送语音对话的转录本的方法和系统。在一个方面,参与同至少第二用户设备的语音呼叫的第一用户设备,从第一用户设备的用户接收语音数据,将来自第一用户设备的用户的语音数据转换成该语音数据的语音转文本转录本,在第一信道上向第二用户设备发送该语音数据,并且在第二信道上向第二用户设备发送该语音数据的语音转文本转录本。
在下面的针对本公开内容的特定实施例的描述和相关附图中,公开了本公开内容的这些和其它方面。在不脱离本公开内容的范围的基础上,可以设计出替代性实施例。此外,为了避免对本公开内容的相关细节造成模糊,将不详细描述或者将省略本公开内容的一些公知要素。
本文使用的“示例性”和/或“示例”一词意味着“用作例子、例证或说明”。本文中描述为“示例性”和/或“示例”的任何实施例不一定被解释为比其它实施例更优选或更具优势。同样,术语“本公开内容的实施例”不是要求本公开内容的所有实施例都包括所讨论的特征、优点或操作模式。
此外,从由例如计算设备的元件执行的动作序列的角度,来描述了多个实施例。应当认识到,本文所描述的各种动作可以由特定的电路(例如,专用集成电路(ASIC))、由通过一个或多个处理器执行的程序指令或者由二者的组合来执行。此外,本文描述的这些动作序列可以被认为是完全地体现在任何形式的计算机可读存储介质中,所述计算机可读存储介质具有存储在其中的相应计算机指令集,当这些计算机指令被执行时,将使得相关联的处理器执行本文所描述的功能。因此,本公开内容的各个方面可以以多种不同的形式来体现,所有的这些不同形式都已经被预期到而落入所声明主题的范围之内。此外,对于本文描述的每一个实施例来说,本文可以将相应形式的任何这种实施例描述成例如被配置为执行所描述的动作的“逻辑单元”。
本文称为用户设备(UE)的客户端设备可以是移动的或者静止的,可以与无线接入网络(RAN)进行通信。如本文所使用的,术语“UE”可以互换地称为“接入终端”或“AT”、“无线设备”、“用户设备”、“用户终端”、“用户站”、“用户终端”或UT、“移动终端”、“移动站”、“用户装置”以及其变型。通常,UE可以经由RAN与核心网络进行通信,并且通过核心网络,UE可以与诸如互联网之类的外部网络相连接。当然,对于UE而言,连接到核心网络和/或互联网的其它机制也是可能的,例如,通过有线接入网络、WiFi网络(如,基于IEEE 802.11等)等等。UE可以通过多种类型的设备中的任意一种来体现,其包括但不限于:PC卡、紧凑型闪存设备、外部或者内部调制解调器、无线或有线电话等等。UE通过其能够向RAN发送信号的通信链路,被称为上行链路信道(例如,反向业务信道、反向控制信道、接入信道等等)。RAN通过其能够向UE发送信号的通信链路,被称为下行链路或前向链路信道(例如,寻呼信道、控制信道、广播信道、前向业务信道等等)。如本文所使用的,术语业务信道(TCH)可以指代上行链路/反向或者下行链路/前向业务信道。
图1示出了根据本公开内容的实施例的无线通信系统100的高层系统架构。无线通信系统100包含UE 1…N。UE 1…N可以包括蜂窝电话、个人数字助理(PDA)、寻呼机、膝上型计算机、桌面型计算机等等。例如,在图1中,将UE 1…2示出为蜂窝呼叫电话,将UE 3…5示出为蜂窝触摸屏电话或者智能电话,以及将UE N示出为桌面型计算机或PC。
参见图1,UE 1…N被配置为通过物理通信接口或者层(其在图1中被示出为空中接口104、106、108和/或直接有线连接),与接入网络(例如,RAN 120、接入点125等等)进行通信。空中接口104和106可以遵循给定的蜂窝通信协议(例如,CDMA(码分多址)、EVDO(演进数据优化)、eHRPD(演进型高速率分组数据)、GSM(全球移动通信系统)、EDGE(增强型数据速率GSM演进)、W-CDMA(宽带CDMA)、LTE(长期演进)等等),而空中接口108可以遵循无线IP协议(例如,IEEE 802.11)。
RAN 120包括通过空中接口(例如,空中接口104和106)来服务UE的多个接入点。RAN 120中的接入点可以称为“接入节点”或者“AN”、“接入点”或“AP”、“基站”或“BS”、“节点B”、“eNodeB”等等。这些接入点可以是陆地接入点(或者地面站)或者卫星接入点。RAN 120被配置为连接到核心网络140,核心网络140可以执行多种功能(其包括:对由RAN120服务的UE和由RAN 120或不同的RAN服务的其它UE之间的电路交换(CS)呼叫总而言之进行桥接),并且核心网络140还可以对与诸如互联网175的外部网络的分组交换(PS)数据的交换起中间作用。互联网175包括大量的路由代理和处理代理(为了方便起见,在图1中没有示出)。在图1中,将UE N示出为直接连接到互联网175(即,与核心网络140相分离,例如通过基于WiFi或802.11的网络的以太网连接)。从而,互联网175可以用于经由核心网络140,来桥接UE N和UE 1…N之间的分组交换数据通信。
此外,在图1中还示出了与RAN 120相分离的接入点125。接入点125可以独立于核心网络140来连接到互联网175(例如,经由诸如FiOS、线缆调制解调器等等之类的光通信系统)。空中接口108可以通过本地无线连接(例如,在一个示例中,IEEE 802.11)来服务UE 4或UE 5。将UE N示出为具有到互联网175的有线连接的桌面型计算机,例如,到调制解调器或路由器的直接连接,在一个示例中,该调制解调器或路由器可以对应于接入点125自身(例如,对于具有有线和无线连接二者的WiFi路由器而言)。
参见图1,将应用服务器170示出为连接到互联网175、核心网络140或二者。应用服务器170可以实现成多个结构上独立的服务器,或者替代地可以对应于单个服务器。如下面所进一步详细描述的,应用服务器170被配置为支持UE的一个或多个通信服务(例如,互联网协议承载语音(VoIP)会话、一键通(PTT)会话、群组通信会话、社交网络服务等等),其中这些UE可以经由核心网络140和/或互联网175来连接到应用服务器170,和/或应用服务器170被配置为向UE提供内容(例如,网页下载)。
图2示出了根据本公开内容的实施例的UE(例如,客户端设备)的例子。参见图2,将UE 200A示出成呼叫电话,将UE 200B示出成触摸屏设备(例如,智能电话、平板计算机等等)。如图2中所示,UE 200A的外壳配置有天线205A、显示器210A、至少一个按钮215A(例如,PTT按钮、电源键、音量控制键等等)和键盘220A等其它部件,如本领域所已知的。此外,UE200B的外壳配置有触摸屏显示器205B、外围按钮210B、215B、220B和225B(例如,功率控制按钮、音量或振动控制按钮、飞行模式切换按钮等等)和至少一个前面板按钮230B(例如,主页按钮等等)等其它部件,如本领域所已知的。尽管没有明确地示出成UE 200B的一部分,但UE200B可以包括一付或多付外置天线和/或内置在UE 200B的外壳中的一付或多付集成天线,其包括但不限于:WiFi天线、蜂窝天线、卫星定位系统(SPS)天线(例如,全球定位系统(GPS)天线)等等。
尽管可以使用不同的硬件配置来体现诸如UE 200A和200B之类的UE的内部部件,但如图2中的平台202,示出了用于内部硬件部件的基本高层UE配置。平台202可以接收和执行软件应用、从RAN 120发送的数据和/或命令,其中这些数据和/或命令可能最终来自于核心网络140、互联网175和/或其它远程服务器和网络(例如,应用服务器170、web URL等等)。此外,平台202还可以在无RAN交互的情况下,独立地执行本地存储的应用。平台202可以包括操作性耦合到至少一个处理器208(例如,专用集成电路(ASIC)、微处理器、逻辑电路或其它数据处理设备)的收发机206。处理器208执行与UE 200A和UE 200B的存储器212中的任何驻留程序进行接口的应用程序接口(API)210层。存储器212可以包括只读存储器或随机存取存储器(RAM和ROM)、EEPROM、闪存卡、或者计算机平台通用的任何存储器。此外,平台202还可以包括本地数据库214,后者可以存储在存储器212中没有被活跃地使用的应用,以及其它数据。通常,本地数据库214是闪速存储器单元,但其也可以是如本领域已知的任何次级存储设备,例如,磁介质、EEPROM、光介质、磁带、软盘或硬盘等等。此外,平台202还可以包括语音转文本模块216,以便将UE 200A和UE 200B的用户的语音数据转换成文本。语音转文本模块216可以是耦合到或者并入到处理器208的硬件部件、存储在存储器212中并可由处理器208执行的软件模块、或者硬件和软件的组合(例如,固件)。
因此,本公开内容的实施例可以包括具有执行本文所描述的功能的能力的UE(例如,UE 200A、UE 200B等等)。如本领域普通技术人员所应当理解的,可以利用用于实现本文所公开的功能的分离元件、在处理器上执行的软件模块或者软件和硬件的任意组合来体现各种逻辑元件。例如,可以对处理器208、存储器212、API 210和本地数据库214统统进行协作地使用,以加载、存储和执行本文所公开的各种功能,因此,用于执行这些功能的逻辑单元可以分布在各个元件上。替代地,可以将功能合并到一个分离部件中。因此,图2中的UE200A和UE 200B的特征只应被视作为是示例性,而本公开内容并不限于所示出的特征或布置。
UE 200A和/或UE 200B和RAN 120之间的无线通信可以是基于不同的技术的,诸如CDMA、W-CDMA、时分多址(TDMA)、频分多址(FDMA)、正交频分复用(OFDM)、GSM或者可以在无线通信网络或数据通信网络中使用的其它协议。如前文所讨论和本领域所已知的,可以使用各种各样的网络和配置,从RAN 120向UE 200A和UE 200B发送语音传输和/或数据。因此,本文所提供的示例并不旨在限制本公开内容的实施例,其仅仅用于帮助描述本公开内容的实施例的方面。
图3示出了包括用于执行功能的结构部件的通信设备300。通信设备300可以对应于上面所陈述的通信设备中的任何一个,其包括但不限于:UE 200A或者UE 200B、RAN 120的任何部件、核心网络140的任何部件、与核心网络140和/或互联网175相耦合的任何部件(例如,应用服务器170)等等。因此,通信设备300可以对应于被配置为通过图1的无线通信系统100,与一个或多个其它实体进行通信(或者有助于与之通信)的任何电子设备。
参见图3,通信设备300包括被配置为接收和/或发送信息的收发机电路305。举一个例子,如果通信设备300对应于无线通信设备(例如,UE 200A和/或UE 200B、RAN 120、接入点125等等),则被配置为接收和/或发送信息的收发机电路305可以包括无线通信接口(例如,2G、CDMA、W-CDMA、3G、4G、LTE、蓝牙、Wi-Fi、Wi-Fi直接型、LTE直接型等等),诸如无线收发机和相关联的硬件(例如,RF天线、MODEM、调制器和/或解调器等等)。再举一个例子,被配置为接收和/或发送信息的收发机电路305可以对应于有线通信接口(例如,通过其能够接入互联网175的串行连接、USB或火线连接、以太网连接等等)。因此,如果通信设备300对应于某种类型的基于网络的服务器(例如,应用服务器170)或者核心网络140的部件,则举例而言,被配置为接收和/或发送信息的收发机电路305可以对应于经由以太网协议,将基于网络的服务器连接到其它通信实体的以太网卡。在另外的例子中,被配置为接收和/或发送信息的收发机电路305可以包括感知或者测量硬件(例如,加速计、温度传感器、光传感器、用于监测本地RF信号的天线等等),其中,通信设备300可以据此来监测其本地环境。此外,被配置为接收和/或发送信息的收发机电路305还可以包括软件,当该软件被执行时,准许被配置为接收和/或发送信息的收发机电路305的相关联硬件来执行其接收和/或发送功能。但是,被配置为接收和/或发送信息的收发机电路305并不单单地与软件相对应,被配置为接收和/或发送信息的收发机电路305至少部分地依赖于结构硬件来实现其功能。
参见图3,通信设备300还包括被配置为处理信息的至少一个处理器310。可以由被配置为处理信息的至少一个处理器310执行的处理的类型的示例性实现,包括但不限于:执行确定、建立连接、在不同的信息选项之间进行选择、执行与数据有关的评估、与耦合到通信设备300的传感器进行交互以执行测量操作、将信息从一种格式转换成另一种格式(例如,在不同的协议之间进行转换,诸如从.wmv转换成.avi等)等等。例如,被配置为处理信息的至少一个处理器310可以包括:被设计用于执行本文所描述的功能的通用处理器、DSP、ASIC、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分离门或晶体管逻辑器件、分离硬件部件、或者其任意组合。通用处理器可以是微处理器,或者,被配置为处理信息的至少一个处理器310可以是任何常规的处理器、控制器、微控制器或者状态机。此外,还可以将处理器实现成计算设备的组合(例如,DSP和微处理器的组合、多个微处理器、结合DSP内核的一个或多个微处理器、或者任何其它这种结构)。此外,被配置为处理信息的至少一个处理器310还可以包括软件,当该软件被执行时,准许被配置为处理信息的至少一个处理器310的相关联硬件来执行其处理功能。但是,被配置为处理信息的至少一个处理器310并不单单地与软件相对应,被配置为处理信息的至少一个处理器310至少部分地依赖于结构硬件来实现其功能。
参见图3,通信设备300还可以包括被配置为存储信息的存储器315。举例而言,被配置为存储信息的存储器315可以至少包括非临时性存储器和相关联的硬件(例如,存储器控制器等等)。例如,被配置为存储信息的存储器315中包括的非临时性存储器,可以对应于RAM、闪存、只读存储器(ROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可移动硬盘、CD-ROM或者本领域已知的任何其它形式的存储介质。被配置为存储信息的存储器315还可以包括软件,当该软件被执行时,准许被配置为存储信息的存储器315的相关联硬件来执行其存储功能。但是,被配置为存储信息的存储器315并不单单地与软件相对应,被配置为存储信息的存储器315至少部分地依赖于结构硬件来实现其功能。
参见图3,通信设备300还可选地包括被配置为呈现信息的用户接口输出电路320。举例而言,被配置为呈现信息的用户接口输出电路320可以至少包括输出设备和相关联的硬件。例如,输出设备可以包括视频输出设备(例如,显示屏、诸如USB、HDMI等等之类的能够携带视频信息的端口)、音频输出设备(例如,扬声器、诸如麦克风插孔、USB、HDMI等等之类的能够携带音频信息的端口)、振动设备和/或通过其能够对信息进行格式化以进行输出或通过其信息能够实际上通过通信设备300的用户或操作者来进行输出的任何其它设备。例如,如果通信设备300对应于如图2中所示出的UE 200A和/或UE 200B,则被配置为呈现信息的用户接口输出电路320可以包括显示器210A和/或触摸屏显示器205B。在另外的例子中,对于某些通信设备来说,可以省略被配置为呈现信息的用户接口输出电路320,例如,不具有本地用户的网络通信设备(例如,网络交换机或路由器、远程服务器等等)。此外,被配置为呈现信息的用户接口输出电路320还可以包括软件,当该软件被执行时,准许被配置为呈现信息的用户接口输出电路320的相关联硬件来执行其呈现功能。但是,被配置为呈现信息的用户接口输出电路320并不单单地与软件相对应,被配置为呈现信息的用户接口输出电路320至少部分地依赖于结构硬件来实现其功能。
参见图3,通信设备300还可选地包括被配置为接收本地用户输入的用户接口输入电路325。举例而言,被配置为接收本地用户输入的用户接口输入电路325可以至少包括用户输入设备和相关联的硬件。例如,用户输入设备可以包括按钮、触摸屏显示器、键盘、照相机、音频输入设备(例如,麦克风、或诸如麦克风插孔等等之类的能够携带音频信息的端口)、和/或通过其能够从通信设备300的用户或操作者接收信息的任何其它设备。例如,如果通信设备300对应于如图2中所示出的UE 200A和/或UE 200B,则被配置为接收本地用户输入的用户接口输入电路325可以包括按钮215A和215B-230B、键盘220A、触摸屏显示器205B等等。在另外的例子中,对于某些通信设备来说,可以省略被配置为接收本地用户输入的用户接口输入电路325,例如,不具有本地用户的网络通信设备(例如,网络交换机或路由器、远程服务器等等)。此外,被配置为接收本地用户输入的用户接口输入电路325还可以包括软件,当该软件被执行时,准许被配置为接收本地用户输入的用户接口输入电路325的相关联硬件来执行其输入接收功能。但是,被配置为接收本地用户输入的用户接口输入电路325并不单单地与软件相对应,被配置为接收本地用户输入的用户接口输入电路325至少部分地依赖于结构硬件来实现其功能。
参见图3,尽管在图3中将配置的结构部件305到325示出成经由相关联的通信总线330来彼此耦合的单独的或者不同的框,但应当理解的是,相应的配置的结构部件305到325通过其来执行它们相应的功能的硬件和/或软件可以部分地重叠。例如,用于促进配置的结构部件305到325的功能的任何软件,可以存储在与被配置为存储信息的存储器315相关联的非临时性存储器中,使得配置的结构部件305到325各自部分地基于由被配置为存储信息的存储器315所存储的软件的操作,来执行它们相应的功能(即,在该情况下,软件执行)。同样,与配置的结构部件305到325中的一个直接相关联的硬件,可以不时地被其它配置的结构部件305到325来借用或者使用。例如,在由被配置为接收和/或发送信息的收发机电路305进行发送之前,被配置为处理信息的至少一个处理器310可以将数据格式化成适当的格式,使得被配置为接收和/或发送信息的收发机电路305部分地基于与被配置为处理信息的至少一个处理器310相关联的结构硬件的操作,来执行其功能(即,在该情况下,数据的传输)。
因此,各个结构部件305到325旨在调用至少部分地使用结构硬件来实现的方面,而不是旨在映射到独立于硬件的仅仅软件实现,和/或映射到非结构功能解释。在了解了下面更详细描述的方面之后,结构部件305到325之间的其它交互或者协作对于本领域普通技术人员来说将变得清楚。
存在着这样的情形:其中,对于处于语音呼叫(无论是群组呼叫,还是仅仅两个用户之间的呼叫)的听者来说能够看到说话者正在讲的话的实时的语音转文本转录本将是有益的。例如,在较差的无线通信信道状况、拥塞的网络、高干扰等等情况下,通常会丢失(例如,IP承载语音(VoIP)呼叫中的)语音分组,故听者变得很难理解说话者在说什么。再举一个例子,在不匹配的环境的情况下(例如,当说话者处于安静环境,但听者处于嘈杂环境时),听者可能不能正确地感知对话。再举一个例子,听者可能由于说话者的口音,而感到难以理解说话者。
目前的语音转文本系统在听者的用户设备处,将说话者的话语转换成文本。相比而言,本公开内容提供了在说话者的用户设备处,生成该说话者的话语的语音转文本转录本,并将其发送给听者。这种方式提供了众多的优点。例如,在源处从语音转换成文本,将提供更佳的转换准确性,这是由于说话者的用户设备能访问到原始语音分组,而在听者的用户设备处,说话者的语音将具有编解码器伪迹以及由于无线信道所增加的其它失真。再举一个例子,说话者的用户设备通常将利用说话者的语音来训练,并因此,语音转文本准确性将是更高的。当说话者具有听者很难理解的口音时,这种方式也将是有益的。
图4A示出了根据本公开内容的至少一个方面的源用户设备410(即,说话者)和目的用户设备420(即,听者)之间的示例性通信的高层图。如图4中所示,本公开内容的机制通过不同的无线接入承载(RAB)或者信道来发送语音和文本。与相对应的语音相比,在源用户设备410处生成的语音转文本转录本被更可靠地发送。例如,可以使用诸如即时消息传送应用层协议,通过数据RAB来发送该转录本,其中即时消息传送应用层协议可以是基于会话发起协议(SIP)或者可扩展消息传送和出席协议(XMPP)的。相比而言,语音信息可以通过电路交换(CS)网络或者分组交换(PS)网络来发送,这可能是较不可靠的(例如,预期到语音PS连接上的更低的可靠性,这是由于端到端延迟是语音通信中的主要关注点,而不是可靠性)。因此,即使由于较差的通信信道状况而丢失语音分组,转录本也具有更高的概率来成功到达目的用户设备420,其中在目的用户设备420处,用户可以读取该转录本。
图4B更详细地示出了图4A的源用户设备410和目的用户设备420。如图4B中所示,源用户设备410包括用于生成语音数据404的麦克风402、用于对语音数据404进行编码的语音编码器406、用于将语音数据404转换成文本的语音转文本模块408、以及用于对由语音转文本模块408所生成的语音转文本数据进行缓存的缓冲器412。调制解调器414从语音编码器406接收编码的语音数据,从缓冲器412接收语音转文本数据,并在不同的RAB上向目的用户设备420发送它们。可以将缓冲器412实现成循环缓冲器,据此,已发送的文本被还没有发送的文本替换。应当注意,可以实现不具有缓冲器412的源用户设备410,这是由于一些应用层协议将缓冲器提供成重传机制的一部分。
在目的用户设备420处,调制解调器424在语音RAB上接收编码的语音数据,在数据RAB上接收语音转文本数据。调制解调器424向语音编码器426发送编码的语音数据来进行解码,并由扬声器428进行重现,以及向显示器422发送语音转文本数据以便向用户进行显示。应当理解的是,当两个或更多用户设备在参与语音呼叫时,用户设备可以在一些时间是源用户设备410,而在其它时间是目的用户设备420,这取决于在该时间处用户设备是在发送语音和语音转文本数据,还是在接收语音和语音转文本数据。
参见图2,当源用户设备410与UE 200A和/或UE 200B相对应时,调制解调器414可以耦合到收发机206,并且语音转文本模块408可以与语音转文本模块216相对应。进一步参见图2,当目的用户设备420与UE 200A和/或UE 200B相对应时,调制解调器424可以耦合到收发机206,并且显示器422可以与显示器210A或者触摸屏显示器205B相对应。
参见图3,当源用户设备410与通信设备300相对应时,麦克风402可以与被配置为接收本地用户输入的用户接口输入电路325相对应,调制解调器414可以耦合到被配置为接收和/或发送信息的收发机电路305,以及语音转文本模块408可以是集成到或者耦合到被配置为处理信息的至少一个处理器310的硬件部件。进一步参见图3,当目的用户设备420与通信设备300相对应时,调制解调器424可以耦合到被配置为接收和/或发送信息的收发机电路305,并且显示器422可以与被配置为呈现信息的用户接口输出电路320相对应。
随着语音转文本转录本被接收,目的用户设备420可以对其进行显示,类似于用户在电话对话期间可以观看的滚动字幕。为了在观看该转录本时仍能够听取呼叫,用户可以在显示器422上观看该文本,并且使用扬声器模式或者免提设备(例如,蓝牙耳机)来听取该呼叫。替代地,用户可以在另一个智能设备(例如,智能手表)上观看该转录本,同时将目的用户设备420保持在他或者她的耳边。
图5示出了根据本公开内容的至少一个方面的用于在电信期间发送语音对话的转录本的示例性流程。在502处,源用户设备410发起与目的用户设备420的语音呼叫建立过程。在504处,源用户设备410发起与目的用户设备420的数据会话建立过程。应当理解的是,尽管在图5中只示出了一个目的用户设备420,但可以存在一个以上的目的用户设备(例如,在群组呼叫的情况下)。
在506处,连接语音呼叫,源用户设备410的用户可以开始讲话。当用户开始讲话时,源用户设备410(例如,语音转文本模块408)开始对该用户的语音的语音转文本转换,并将文本存储在缓冲器412中,直到建立数据会话或者没能建立数据会话为止。应当注意,如果数据会话在任何时间点发生失败(例如,如果目的用户设备420不支持该语音转文本显示特征,则可能发生这种失败),则将停止该语音转文本转换。尽管在图5中没有示出,但源用户设备410可以自动地或者响应于来自目的用户设备420的请求,来发送该语音转文本转录本。
在508处,源用户设备410(例如,调制解调器414和/或收发机206)开始向目的用户设备420发送语音分组。
在510处,建立数据会话。例如,可以使用任何现有的即时消息传送应用层协议(如上所述,其可以是基于例如SIP或XMPP)来建立该数据会话。所使用的传输层协议应当确保数据分组的按序传输(例如,传输控制协议(TCP))。该数据会话的服务质量(QoS)应当确保用于转录本传输的可容忍时延(例如,低于给定门限的时延),以确保对话之间具有更少的延迟。应当注意,502和506处的语音呼叫建立过程和后续的语音对话将继续,而不管504和510处的数据会话建立是否成功。
在512处,一旦建立了该数据会话,则这时可以将缓冲器412中的任何文本发送给目的用户设备420。一旦接收到该文本,目的用户设备420就可以开始显示说话者的语音的转录本。在该语音呼叫的持续时间内,或者直到该数据会话失败为止,在该源用户设备410的用户所讲的每一个词语或者语句结束时,源用户设备410将实时地发送后续的语音转录本。
目的用户设备420可以使用隐藏式字幕方法来显示语音转文本转录本,通过该方法,更新的转录本取代更旧的转录本。替代地,目的用户设备420可以使用滚动方法,通过该方法,可以将新的转录本增加到更旧的转录本的显示上,而当在目的用户设备420的屏幕上存在太多要观看的文本时,显示滚动条,以便可以将转录本的显示进行滚动以显示较早的转录本。这种滚动显示方法缓解了转录本关于相对应的语音的变化延迟的影响。具体而言,在目的用户设备420的用户听到说话者的话语时的时间,和目的用户设备420接收并显示说话者的话语的相对应的语音转文本转录本的时间之间将存在延迟。这种滚动方法允许目的用户设备420的用户对说话者的语音的转录本进行从头至尾地滚动。
在514处,源用户设备410发起语音呼叫断开过程。在该时间点,语音对话结束,源用户设备410停止对该源用户设备410的用户的语音的语音转文本转换。在516处,源用户设备410发起数据会话终止过程。在518处,目的用户设备420确认对该语音呼叫的断开。在该时间点,目的用户设备420可以停止显示说话者的话语的转录本。在520处,目的用户设备420对该数据会话的终止进行确认。
应当理解的是,与源用户设备410相对应的用户设备可以在一些时间充当源用户设备410,而在其它时间充当目的用户设备420,这取决于在该时间处用户设备是在发送语音和语音转文本数据,还是在接收语音和语音转文本数据。类似地,与目的用户设备420相对应的一个或多个用户设备可以在一些时间充当源用户设备410,而在其它时间充当目的用户设备420,这取决于在该时间处该一个或多个用户设备是在发送语音和语音转文本数据,还是在接收语音和语音转文本数据。
应当理解的是,图5中所示出的操作并不需要按照所示出的顺序来发生。例如,可以同时地或者按相反的顺序,来建立语音呼叫和数据会话。类似地,可以同时地或者按相反的顺序,来终止语音呼叫和数据会话。
尽管在图5中没有示出,但目的用户设备420可以保存该语音转文本转录本,以便未来参考。
图6示出了用于在电信期间发送语音对话的转录本的示例性流程。图6中所示出的流程可以由源用户设备410来执行。源用户设备410可以在参与同至少一个第二用户设备(例如,目的用户设备420)的语音呼叫。
在602处,在源用户设备410中,例如,麦克风402或语音编码器406接收来自源用户设备410的用户的语音数据。
在604处,在源用户设备410中,例如,语音转文本模块408将来自第一用户设备的用户的语音数据转换成该语音数据的语音转文本转录本。
在606处,在源用户设备410中,例如,调制解调器414和/或收发机206在第一信道上向第二用户设备发送该语音数据。
在608处,在源用户设备410中,例如,调制解调器414和/或收发机206在第二信道上向第二用户设备发送该语音数据的语音转文本转录本。如上所述,第一信道和第二信道可以是不同的信道(例如,不同的RAB)。例如,第一信道可以是语音信道,而第二信道可以是数据信道。
尽管在图6中没有示出,但该流程还可以包括:由源用户设备410在第一信道上建立语音呼叫,以向第二用户设备发送语音数据,例如,图5的502和506处;在第二信道上建立数据会话,以向第二用户设备发送语音转文本转录本,例如,图5的504和510处。语音呼叫的建立独立于数据会话的建立。
此外,尽管在图6中没有示出,但该流程还可以包括:在缓冲器412中,对语音数据的语音转文本转录本进行缓存,直到在第二信道上建立数据会话为止。
在一个实施例中,尽管在图6中没有示出,但该流程还可以包括:从第二用户设备接收用于向第二用户设备发送语音数据的语音转文本转录本的请求。但是,在替代的实施例中,在没有从第二用户设备接收到用于发送语音转文本转录本的请求的情况下,源用户设备410可以在第二信道上,向第二用户设备发送语音数据的语音转文本转录本。
另外,尽管没有示出,但图6中的流程还可以包括:在去往第二用户设备的语音数据传输结束之前,停止去往第二用户设备的语音数据的语音转文本转录本的传输。第一用户设备可以基于从第二用户设备接收到用于停止向第二用户设备传输语音数据的语音转文本转录本的请求,来停止向第二用户设备传输语音数据的语音转文本转录本。替代地,第一用户设备可以基于从第一用户设备的用户接收到用于停止向第二用户设备传输语音数据的语音转文本转录本的指令,来停止向第二用户设备传输语音数据的语音转文本转录本。
如上所述,第二用户设备可以在第二用户设备的用户界面上显示语音转文本转录本。随着第二用户设备接收语音数据,可以在第二用户设备的用户界面上滚动语音转文本转录本。第二用户设备的用户界面可以被配置为:接收输入以滚动到语音转文本转录本的较早部分。
图7示出了表示成一系列相互有关的功能模块的示例性基站装置700。例如,用于接收的模块702可以至少在一些方面对应于如本文所讨论的通信设备,诸如,图2中的收发机206、图3中的被配置为接收和/或发送信息的收发机电路305、和/或图4B中的调制解调器414。例如,用于转换的模块704可以至少在一些方面对应于如本文所讨论的处理系统,诸如,图2中的处理器208、图3中的被配置为处理信息的至少一个处理器310、和/或图4B中的语音转文本模块408。例如,用于发送的模块706可以至少在一些方面对应于如本文所讨论的通信设备,诸如,图2中的收发机206、图3中的被配置为接收和/或发送信息的收发机电路305、和/或图4B中的调制解调器414。例如,用于发送的模块708可以至少在一些方面对应于如本文所讨论的通信设备,诸如,图2中的收发机206、图3中的被配置为接收和/或发送信息的收发机电路305、和/或图4B中的调制解调器414。
可以使用与本文教导内容相一致的各种方式来实现图7中的模块的功能。在一些设计方案中,可以将这些模块的功能实现成一个或多个电部件。在一些设计方案中,可以将这些方框的功能实现成包括一个或多个处理器部件的处理系统。在一些设计方案中,可以使用例如一个或多个集成电路(例如,ASIC)的至少一部分来实现这些模块的功能。如本文所讨论的,集成电路可以包括处理器、软件、其它有关的部件或者其某种组合。因此,可以将不同的模块的功能实现成例如集成电路的不同子集,一组软件模块的不同子集,或者其组合。此外,应当理解的是,(例如,集成电路的和/或一组软件模块的)给定子集可以提供用于一个以上模块的功能的至少一部分。
此外,可以使用任何适当的单元,来实现由图7所表示的部件和功能,以及本文所描述的其它部件和功能。此外,可以至少部分地使用如本文所教示的相应结构来实现这些单元。例如,上面结合图7的“用于…的模块”部件所描述的部件,还可以对应于类似指定的“用于…的单元”功能。因此,在一些方面,可以使用以下各项中的一项或多项来实现这些单元中的一个或多个单元:处理器部件、集成电路或者如本文所教示的其它适当结构。
本领域普通技术人员应当理解,可以使用多种不同的技术和方法中的任意一种来表示信息和信号。例如,在贯穿上面的描述中提及的数据、指令、命令、信息、信号、比特、符号和码片可以用电压、电流、电磁波、磁场或磁粒子、光场或光粒子或者其任意组合来表示。
此外,本领域普通技术人员还应当明白,结合本文所公开的实施例描述的各种示例性逻辑框、模块、电路和算法步骤可以实现成电子硬件、计算机软件或二者的组合。为了清楚地阐释硬件和软件之间的这种可交换性,上面已经围绕各种示例性部件、框、模块、电路和步骤的功能对其进行了总体描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和施加在整个系统上的设计约束。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应被解释为使得背离本公开内容的范围。
可以用被设计用于执行本文所述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件部件或者其任意组合,来实现或执行结合本文所公开的实施例描述的各种示例性逻辑框、模块和电路。通用处理器可以是微处理器,或者,该处理器也可以是任何常规的处理器、控制器、微控制器或者状态机。处理器也可以实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、结合DSP内核的一个或多个微处理器,或者任何其它此种结构。
结合本文所公开的实施例描述的方法、序列和/或算法可直接体现为硬件、由处理器执行的软件模块或二者的组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域已知的任何其它形式的存储介质中。将示例性存储介质耦合到处理器,使得该处理器能够从该存储介质读取信息,并且可向该存储介质写入信息。或者,该存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端(例如,UE)中。在替代方案中,处理器和存储介质可以作为分立部件存在于用户终端中。
在一个或多个示例性实施例中,本文所述功能可以用硬件、软件、固件或者其任意组合的方式来实现。如果用软件的方式来实现,则可以将这些功能存储在计算机可读介质上或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质二者,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。举例而言,但并非做出限制,这种计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机进行存取的任何其它介质。此外,可以将任何连接适当地称作计算机可读介质。举例而言,如果软件是使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或者诸如红外线、无线和微波之类的无线技术,从网站、服务器或其它远程源传输的,那么所述同轴线缆、光纤线缆、双绞线、DSL或者诸如红外线、无线和微波之类的无线技术包括在所述介质的定义中。如本文所使用的,磁盘和光盘包括压缩光盘(CD)、激光盘、光盘、数字通用光盘(DVD)、软盘和蓝光盘,其中磁盘通常磁性地复制数据,而光盘则用激光来光学地复制数据。上述的组合也应当包括在计算机可读介质的范围之内。
尽管上文示出了本公开内容的示例性实施例,但应当注意的是,在不脱离如所附权利要求书所规定的本公开内容的范围的基础上,可以对本文做出各种改变和修改。不需要以任何特定的顺序来执行根据本文所描述的公开内容的实施例的方法权利要求的功能、步骤和/或动作。此外,尽管可能用单数的形式描述或主张了本公开内容的组成要素,但除非明确说明限于单数,否则复数形式是可以预期的。
Claims (30)
1.一种用于在电信期间发送语音对话的转录本的方法,包括:
在参与同至少第二用户设备的语音呼叫的第一用户设备处,接收来自所述第一用户设备的用户的语音数据;
由所述第一用户设备,将来自所述第一用户设备的所述用户的所述语音数据转换成所述语音数据的语音转文本转录本;
由所述第一用户设备,在第一信道上向所述第二用户设备发送所述语音数据;以及
由所述第一用户设备,在第二信道上向所述第二用户设备发送所述语音数据的所述语音转文本转录本。
2.根据权利要求1所述的方法,其中,所述第一信道和所述第二信道是不同的信道。
3.根据权利要求1所述的方法,其中,所述第一信道包括语音信道,并且所述第二信道包括数据信道。
4.根据权利要求1所述的方法,还包括:
在所述第一信道上建立语音呼叫,以用于向所述第二用户设备发送所述语音数据;以及
在所述第二信道上建立数据会话,以用于向所述第二用户设备发送所述语音转文本转录本。
5.根据权利要求4所述的方法,还包括:
在所述第一用户设备处,对所述语音数据的所述语音转文本转录本进行缓存,直到在所述第二信道上建立了所述数据会话为止。
6.根据权利要求4所述的方法,其中,所述数据会话使用即时消息传送应用层协议。
7.根据权利要求4所述的方法,其中,对所述语音呼叫的建立独立于对所述数据会话的建立。
8.根据权利要求4所述的方法,其中,所述数据会话的服务质量(QoS)为转录本传输提供可容忍时延。
9.根据权利要求1所述的方法,还包括:
从所述第二用户设备接收用于向所述第二用户设备发送所述语音数据的所述语音转文本转录本的请求。
10.根据权利要求1所述的方法,其中,在没有从所述第二用户设备接收到用于发送所述语音转文本转录本的请求的情况下,所述第一用户设备在所述第二信道上,向所述第二用户设备发送所述语音数据的所述语音转文本转录本。
11.根据权利要求1所述的方法,还包括:
在去往所述第二用户设备的对所述语音数据的传输结束之前,停止去往所述第二用户设备的对所述语音数据的所述语音转文本转录本的传输。
12.根据权利要求11所述的方法,其中,所述第一用户设备基于从所述第二用户设备接收到用于停止去往所述第二用户设备的对所述语音数据的所述语音转文本转录本的传输的请求,停止去往所述第二用户设备的对所述语音数据的所述语音转文本转录本的传输。
13.根据权利要求11所述的方法,其中,所述第一用户设备基于从所述第一用户设备的用户接收到用于停止去往所述第二用户设备的对所述语音数据的所述语音转文本转录本的传输的指令,停止去往所述第二用户设备的对所述语音数据的所述语音转文本转录本的传输。
14.根据权利要求1所述的方法,其中,所述语音转文本转录本是在所述第二用户设备的用户界面上被显示的。
15.根据权利要求14所述的方法,其中,随着所述第二用户设备接收所述语音数据,在所述第二用户设备的所述用户界面上滚动所述语音转文本转录本。
16.根据权利要求15所述的方法,其中,所述第二用户设备的所述用户界面被配置为:接收输入以滚动到所述语音转文本转录本的较早部分。
17.一种用于在电信期间发送语音对话的转录本的装置,包括:
第一用户设备的至少一个收发机,其被配置为接收来自所述第一用户设备的用户的语音数据,所述第一用户设备参与同至少第二用户设备的语音呼叫;以及
所述第一用户设备的至少一个处理器,其被配置为将来自所述第一用户设备的所述用户的所述语音数据转换成所述语音数据的语音转文本转录本,
其中,所述至少一个收发机还被配置为:在第一信道上向所述第二用户设备发送所述语音数据,并且在第二信道上向所述第二用户设备发送所述语音数据的所述语音转文本转录本。
18.根据权利要求17所述的装置,其中,所述第一信道包括语音信道,并且所述第二信道包括数据信道。
19.根据权利要求17所述的装置,其中,所述至少一个收发机还被配置为:
在所述第一信道上建立语音呼叫,以用于向所述第二用户设备发送所述语音数据;以及
在所述第二信道上建立数据会话,以用于向所述第二用户设备发送所述语音转文本转录本。
20.根据权利要求19所述的装置,其中,所述数据会话使用即时消息传送应用层协议。
21.根据权利要求19所述的装置,其中,对所述语音呼叫的建立独立于对所述数据会话的建立。
22.根据权利要求17所述的装置,其中,所述至少一个收发机还被配置为:从所述第二用户设备接收用于向所述第二用户设备发送所述语音数据的所述语音转文本转录本的请求。
23.根据权利要求17所述的装置,其中,所述至少一个收发机在没有从所述第二用户设备接收到用于发送所述语音转文本转录本的请求的情况下,在所述第二信道上,向所述第二用户设备发送所述语音数据的所述语音转文本转录本。
24.根据权利要求17所述的装置,其中,所述至少一个收发机还被配置为:在去往所述第二用户设备的对所述语音数据的传输结束之前,停止去往所述第二用户设备的对所述语音数据的所述语音转文本转录本的传输。
25.根据权利要求24所述的装置,其中,所述至少一个收发机基于从所述第二用户设备接收到用于停止去往所述第二用户设备的对所述语音数据的所述语音转文本转录本的传输的请求,停止去往所述第二用户设备的对所述语音数据的所述语音转文本转录本的传输。
26.根据权利要求24所述的装置,其中,所述至少一个收发机基于从所述第一用户设备的用户接收到用于停止去往所述第二用户设备的对所述语音数据的所述语音转文本转录本的传输的指令,停止去往述第二用户设备的对所述语音数据的所述语音转文本转录本的传输。
27.根据权利要求17所述的装置,其中,所述语音转文本转录本是在所述第二用户设备的用户界面上被显示的。
28.根据权利要求27所述的装置,其中,随着所述第二用户设备接收所述语音数据,在所述第二用户设备的所述用户界面上滚动所述语音转文本转录本。
29.一种用于在电信期间发送语音对话的转录本的装置,包括:
用于在参与同至少第二用户设备的语音呼叫的第一用户设备处,接收来自所述第一用户设备的用户的语音数据的单元;
用于通过所述第一用户设备,将来自所述第一用户设备的所述用户的所述语音数据转换成所述语音数据的语音转文本转录本的单元;
用于通过所述第一用户设备,在第一信道上向所述第二用户设备发送所述语音数据的单元;以及
用于通过所述第一用户设备,在第二信道上向所述第二用户设备发送所述语音数据的所述语音转文本转录本的单元。
30.一种用于在电信期间发送语音对话的转录本的非临时性计算机可读介质,包括:
用于在参与同至少第二用户设备的语音呼叫的第一用户设备处,接收来自所述第一用户设备的用户的语音数据的至少一条指令;
用于通过所述第一用户设备,将来自所述第一用户设备的所述用户的所述语音数据转换成所述语音数据的语音转文本转录本的至少一条指令;
用于通过所述第一用户设备,在第一信道上向所述第二用户设备发送所述语音数据的至少一条指令;以及
用于通过所述第一用户设备,在第二信道上向所述第二用户设备发送所述语音数据的所述语音转文本转录本的至少一条指令。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/975,144 | 2015-12-18 | ||
US14/975,144 US20170178630A1 (en) | 2015-12-18 | 2015-12-18 | Sending a transcript of a voice conversation during telecommunication |
PCT/US2016/062478 WO2017105751A1 (en) | 2015-12-18 | 2016-11-17 | Sending a transcript of a voice conversation during telecommunication |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108369807A true CN108369807A (zh) | 2018-08-03 |
Family
ID=57539623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680072725.9A Pending CN108369807A (zh) | 2015-12-18 | 2016-11-17 | 在电信期间发送语音对话的转录本 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20170178630A1 (zh) |
EP (1) | EP3391368A1 (zh) |
CN (1) | CN108369807A (zh) |
TW (1) | TW201724879A (zh) |
WO (1) | WO2017105751A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109218539A (zh) * | 2018-09-05 | 2019-01-15 | 国家电网公司华东分部 | 电网调度语音可视电话系统 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9497315B1 (en) | 2016-07-27 | 2016-11-15 | Captioncall, Llc | Transcribing audio communication sessions |
WO2018071711A1 (en) | 2016-10-12 | 2018-04-19 | Michael Holm | Transcription presentation of communication sessions |
FR3067547A1 (fr) * | 2017-06-19 | 2018-12-14 | Orange | Procede d'etablissement d'une communication avec un serveur interactif |
US10299084B1 (en) * | 2017-10-05 | 2019-05-21 | Sprint Spectrum L.P. | Systems and methods for providing group call service areas |
CN111200827B (zh) * | 2018-11-19 | 2023-03-21 | 华硕电脑股份有限公司 | 网络系统、无线网络延伸器以及网络供应端 |
US11557296B2 (en) * | 2019-08-27 | 2023-01-17 | Sorenson Ip Holdings, Llc | Communication transfer between devices |
US11580985B2 (en) | 2020-06-19 | 2023-02-14 | Sorenson Ip Holdings, Llc | Transcription of communications |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003019924A1 (en) * | 2001-08-23 | 2003-03-06 | Ultratec, Inc. | System for text assisted telephony |
US6816468B1 (en) * | 1999-12-16 | 2004-11-09 | Nortel Networks Limited | Captioning for tele-conferences |
US20130117018A1 (en) * | 2011-11-03 | 2013-05-09 | International Business Machines Corporation | Voice content transcription during collaboration sessions |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6775360B2 (en) * | 2000-12-28 | 2004-08-10 | Intel Corporation | Method and system for providing textual content along with voice messages |
US7236580B1 (en) * | 2002-02-20 | 2007-06-26 | Cisco Technology, Inc. | Method and system for conducting a conference call |
US20040153504A1 (en) * | 2002-11-21 | 2004-08-05 | Norman Hutchinson | Method and system for enhancing collaboration using computers and networking |
US7133513B1 (en) * | 2004-07-21 | 2006-11-07 | Sprint Spectrum L.P. | Method and system for transcribing voice content of an on-going teleconference into human-readable notation |
US20070112571A1 (en) * | 2005-11-11 | 2007-05-17 | Murugappan Thirugnana | Speech recognition at a mobile terminal |
US20080295040A1 (en) * | 2007-05-24 | 2008-11-27 | Microsoft Corporation | Closed captions for real time communication |
US8755506B2 (en) * | 2007-06-29 | 2014-06-17 | Verizon Patent And Licensing Inc. | System and method for providing call and chat conferencing |
US8265671B2 (en) * | 2009-06-17 | 2012-09-11 | Mobile Captions Company Llc | Methods and systems for providing near real time messaging to hearing impaired user during telephone calls |
US9367876B2 (en) * | 2009-09-18 | 2016-06-14 | Salesforce.Com, Inc. | Systems and methods for multimedia multipoint real-time conferencing allowing real-time bandwidth management and prioritized media distribution |
US20110195739A1 (en) * | 2010-02-10 | 2011-08-11 | Harris Corporation | Communication device with a speech-to-text conversion function |
US20120034938A1 (en) * | 2010-08-04 | 2012-02-09 | Motorola, Inc. | Real time text messaging method and device |
US20140278402A1 (en) * | 2013-03-14 | 2014-09-18 | Kent S. Charugundla | Automatic Channel Selective Transcription Engine |
US9473363B2 (en) * | 2013-07-15 | 2016-10-18 | Globalfoundries Inc. | Managing quality of service for communication sessions |
-
2015
- 2015-12-18 US US14/975,144 patent/US20170178630A1/en not_active Abandoned
-
2016
- 2016-11-17 WO PCT/US2016/062478 patent/WO2017105751A1/en unknown
- 2016-11-17 CN CN201680072725.9A patent/CN108369807A/zh active Pending
- 2016-11-17 EP EP16809593.3A patent/EP3391368A1/en not_active Withdrawn
- 2016-11-17 TW TW105137602A patent/TW201724879A/zh unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6816468B1 (en) * | 1999-12-16 | 2004-11-09 | Nortel Networks Limited | Captioning for tele-conferences |
WO2003019924A1 (en) * | 2001-08-23 | 2003-03-06 | Ultratec, Inc. | System for text assisted telephony |
US20130117018A1 (en) * | 2011-11-03 | 2013-05-09 | International Business Machines Corporation | Voice content transcription during collaboration sessions |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109218539A (zh) * | 2018-09-05 | 2019-01-15 | 国家电网公司华东分部 | 电网调度语音可视电话系统 |
CN109218539B (zh) * | 2018-09-05 | 2021-02-23 | 国家电网公司华东分部 | 电网调度语音可视电话系统 |
Also Published As
Publication number | Publication date |
---|---|
TW201724879A (zh) | 2017-07-01 |
US20170178630A1 (en) | 2017-06-22 |
WO2017105751A1 (en) | 2017-06-22 |
EP3391368A1 (en) | 2018-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108369807A (zh) | 在电信期间发送语音对话的转录本 | |
US10834252B2 (en) | Transcribing audio communication sessions | |
US20230282215A1 (en) | Transcription presentation of communication sessions | |
US8265671B2 (en) | Methods and systems for providing near real time messaging to hearing impaired user during telephone calls | |
CN102131305B (zh) | 一种语音业务的实现方法和系统 | |
CN104641599B (zh) | 用于通信网络中延时通知的方法和系统 | |
EP3217638A1 (en) | Transferring information from a sender to a recipient during a telephone call under noisy environment | |
CN101778485A (zh) | 一种WiFi手持设备的电路域链路建立方法和装置 | |
CN103795834A (zh) | 能将智能手机通话录音文件上传的录音方法及专用录音装置 | |
RU2015156799A (ru) | Система и способ создания беспроводной трубки для стационарных телефонов с помощью домашнего шлюза и смартфона | |
US10313502B2 (en) | Automatically delaying playback of a message | |
CN103684970B (zh) | 媒体数据流的传输方法和瘦终端 | |
CN102355713B (zh) | 语音通信中的呼叫方法及移动终端 | |
CN110366160A (zh) | 一种基于云服务器的多sim卡集群读卡通话方法及系统 | |
US20230247131A1 (en) | Presentation of communications | |
CN101742215A (zh) | 一种可视电话的实现方法及移动终端和系统 | |
CN102282886B (zh) | 一种实现语音业务的方法、移动终端、装置和系统 | |
CN103166938B (zh) | 基于云计算架构的voip流媒体数据传输方法、装置和系统 | |
CN111654909B (zh) | 一种通信方法及系统 | |
US10818295B1 (en) | Maintaining network connections | |
CN115811570B (zh) | Ims通话语音质量测试方法及系统 | |
KR20150115436A (ko) | 중개 통화 서비스 제공 방법 및 장치 | |
CN106559854B (zh) | 移动终端接入lte网络的方法和装置 | |
CN106488167A (zh) | 一种视频通话方法、网络设备、终端及系统 | |
WO2019236205A1 (en) | Management of communications between devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: B. C. Ancient Mardi Inventor after: B. F. Joseph Inventor after: N. Rajash Inventor after: Babbadi Venkata A Naidu Inventor before: B. C. Ancient Mardi Inventor before: B. F. Joseph Inventor before: R NRU Guru Inventor before: Babbadi Venkata A Naidu |
|
CB03 | Change of inventor or designer information | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180803 |
|
WD01 | Invention patent application deemed withdrawn after publication |