CN113128221A - 一种保存发言内容的方法、显示设备及服务器 - Google Patents
一种保存发言内容的方法、显示设备及服务器 Download PDFInfo
- Publication number
- CN113128221A CN113128221A CN202110501846.3A CN202110501846A CN113128221A CN 113128221 A CN113128221 A CN 113128221A CN 202110501846 A CN202110501846 A CN 202110501846A CN 113128221 A CN113128221 A CN 113128221A
- Authority
- CN
- China
- Prior art keywords
- content
- terminal
- text content
- server
- display
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 6
- 238000003058 natural language processing Methods 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 6
- 239000010410 layer Substances 0.000 description 24
- 238000004891 communication Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请公开了在上述实施例中,一种保存发言内容的方法、显示设备及服务器,本申请实施例将文字内容进行处理,得到简化和准确的文字内容,将其作为发言内容自动保存,提高记录发言内容的效率以及准确性。该方法包括:接收终端发送的语音流,发送所述语音流到对端;将所述语音流转换为文字内容,将文字内容发送到对端,并将所述文字内容进行处理,将处理后的文字内容作为发言内容保存。
Description
技术领域
本申请涉及语音识别的技术领域,尤其涉及一种保存发言内容的方法、显示设备及服务器。
背景技术
当前,很多场合下需要对用户的发言内容进行存储,以备后续使用。示例性的,视频会议、本地会议、在线教育、线下培训和发布会等发言场合,均需要将发言内容存储。相关技术中,通常通过人工记录发言内容。但是,人工记录发言内容存在一定弊端,一方面浪费人力,另一方面记录的内容可能存在错误。所以,如何保证发言内容记录的准确性以及高效率,成为本领域技术人员亟待解决的问题。
发明内容
本申请实施例提供一种保存发言内容的方法、显示设备及服务器,提高记录发言内容的效率以及准确性。
第一方面,提供一种服务器,用于执行:
接收终端发送的语音流,发送所述语音流到对端;
将所述语音流转换为文字内容,将文字内容发送到对端,并将所述文字内容进行处理,将处理后的文字内容作为发言内容保存。
一些实施例中,所述服务器被配置为按照下述步骤执行将文字内容进行处理:
启用自然语言处理服务,以使自然语言处理服务将所述文字内容进行分词,得到数个词语;确定所述词语是否为无用词或者专用词;
如果所述词语为无用词,则将文字内容中的所述词语删除;
如果所述词语为专用词,则将文字内容中的专用词替换为预设的矫正词。
一些实施例中,在将文字内容发送到对端之前,还用于执行:
接收终端发送的设备标识和用户标识;
根据所述设备标识和用户标识,确定发言人名字,将所述发言人名字发送到对端。
一些实施例中,在将处理后的文字内容作为发言内容保存之前,还用于执行:
接收终端发送的设备标识和用户标识;
根据所述设备标识和用户标识,确定发言人名字,将所述发言人名字存储在发言内容中。
一些实施例中,在将处理后的文字内容作为发言内容保存之前,还用于执行:接收终端发送的接收用户语音的时间,将所述时间存储在发言内容中。
一些实施例中,还用于执行,接收终端发送的接收用户语音的时间,将所述时间发送到对端。
第二方面提供一种服务器,用于执行:接收终端发送的查看发言内容的请求,查找预先存储的发言内容,并发送所述发言内容到终端,以使终端显示所述发言内容。
第三方面提供一种显示设备,包括:
显示器,用于显示用户界面;
用户接口,用于接收输入信号;
分别与显示器和用户接口连接的控制器,用于执行:
接收用户语音,并将所述语音对应的语音流发送到服务器;
接收服务器发送的文字内容,控制显示器显示所述文字内容。
第四方面提供一种保存发言内容的方法,应用于所述的服务器,包括:
接收终端发送的语音流,发送所述语音流到对端;
将所述语音流转换为文字内容,将文字内容发送到对端,并将所述文字内容进行处理,将处理后的文字内容作为发言内容保存。
第五方面提供一种保存发言内容的方法,应用于所述的服务器,包括:接收终端发送的查看发言内容的请求,查找预先存储的发言内容,并发送所述发言内容到终端,以使终端显示所述发言内容。
在上述实施例中,一种保存发言内容的方法、显示设备及服务器,本申请实施例将文字内容进行处理,得到简化和准确的文字内容,将其作为发言内容自动保存,提高记录发言内容的效率以及准确性。该方法包括:接收终端发送的语音流,发送所述语音流到对端;将所述语音流转换为文字内容,将文字内容发送到对端,并将所述文字内容进行处理,将处理后的文字内容作为发言内容保存。
附图说明
图1示出了根据一些实施例的显示设备的使用场景;
图2示出了根据一些实施例的控制装置100的硬件配置框图;
图3示出了根据一些实施例的显示设备200的硬件配置框图;
图4示出了根据一些实施例的显示设备200中软件配置图;
图5中示例性示出了根据一些实施例的一种保存发言内容的方法的信令图;
图6中示例性示出了根据一些实施例的一种保存发言内容的方法的流程图。
具体实施方式
为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语″第一″、″第二″、″第三″等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
术语″包括″和″具有″以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
术语″模块″是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
图1为根据实施例中显示设备的使用场景的示意图。如图1所示,显示设备200还与服务器400进行数据通信,用户可通过智能设备300或控制装置100操作显示设备200。
在一些实施例中,控制装置100可以是遥控器,遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信,及其他短距离通信方式中的至少一种,通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等至少一种输入用户指令,来控制显示设备200。
在一些实施例中,智能设备300可以包括移动终端、平板电脑、计算机、笔记本电脑,AR/VR设备等中的任意一种。
在一些实施例中,也可以使用智能设备300以控制显示设备200。例如,使用在智能设备上运行的应用程序控制显示设备200。
在一些实施例中,也可以使用智能设备300和显示设备进行数据的通信。
在一些实施例中,显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制,例如,可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制,也可以通过显示设备200设备外部设置的语音控制装置来接收用户的语音指令控制。
在一些实施例中,显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群,也可以是多个集群,可以包括一类或多类服务器。
在一些实施例中,一个步骤执行主体执行的软件步骤可以随需求迁移到与之进行数据通信的另一步骤执行主体上进行执行。示例性的,服务器执行的软件步骤可以随需求迁移到与之数据通信的显示设备上执行,反之亦然。
图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示,控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令,且将操作指令转换为显示设备200可识别和响应的指令,起用用户与显示设备200之间交互中介作用。
在一些实施例中,通信接口130用于和外部通信,包含WIFI芯片,蓝牙模块,NFC或可替代模块中的至少一种。
在一些实施例中,用户输入/输出接口140包含麦克风,触摸板,传感器,按键或可替代模块中的至少一种。
图3示出了根据示例性实施例中显示设备200的硬件配置框图。
在一些实施例中,显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。
在一些实施例中控制器包括中央处理器,视频处理器,音频处理器,图形处理器,RAM,ROM,用于输入/输出的第一接口至第n接口。
在一些实施例中,显示器260包括用于呈现画面的显示屏组件,以及驱动图像显示的驱动组件,用于接收源自控制器输出的图像信号,进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面等。
在一些实施例中,显示器260可为液晶显示器、OLED显示器、以及投影显示器中的至少一种,还可以为一种投影装置和投影屏幕。
在一些实施例中,调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号,如以及EPG数据信号。
在一些实施例中,通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如:通信器可以包括Wifi模块,蓝牙模块,有线以太网模块等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。显示设备200可以通过通信器220与控制装置100或服务器400建立控制信号和数据信号的发送和接收。
在一些实施例中,检测器230用于采集外部环境或与外部交互的信号。例如,检测器230包括光接收器,用于采集环境光线强度的传感器;或者,检测器230包括图像采集器,如摄像头,可以用于采集外部环境场景、用户的属性或用户交互手势,再或者,检测器230包括声音采集器,如麦克风等,用于接收外部声音。
在一些实施例中,外部装置接口240可以包括但不限于如下:高清多媒体接口接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。
在一些实施例中,控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。
在一些实施例中,控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如:响应于接收到用于选择在显示器260上显示UI对象的用户命令,控制器250便可以执行与由用户命令选择的对象有关的操作。
在一些实施例中,所述对象可以是可选对象中的任何一个,例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有:显示连接到超链接页面、文档、图像等操作,或者执行与所述图标相对应程序的操作。
在一些实施例中控制器包括中央处理器(Central Processing Unit,CPU),视频处理器,音频处理器,图形处理器(Graphics Processing Unit,GPU),RAM Random AccessMemory,RAM),ROM(Read-Only Memory,ROM),用于输入/输出的第一接口至第n接口,通信总线(Bus)等中的至少一种。
CPU处理器。用于执行存储在存储器中操作系统和应用程序指令,以及根据接收外部输入的各种交互指令,来执行各种应用程序、数据和内容,以便最终显示和播放各种音视频内容。CPU处理器,可以包括多个处理器。如,包括一个主处理器以及一个或多个子处理器。
在一些实施例中,图形处理器,用于产生各种图形对象,如:图标、操作菜单、以及用户输入指令显示图形等中的至少一种。图形处理器包括运算器,通过接收用户输入各种交互指令进行运算,根据显示属性显示各种对象;还包括渲染器,对基于运算器得到的各种对象,进行渲染,上述渲染后的对象用于显示在显示器上。
在一些实施例中,视频处理器,用于将接收外部视频信号,根据输入信号的标准编解码协议,进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等视频处理中的至少一种,可得到直接可显示设备200上显示或播放的信号。
在一些实施例中,视频处理器,包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等中的至少一种。其中,解复用模块,用于对输入音视频数据流进行解复用处理。视频解码模块,用于对解复用后的视频信号进行处理,包括解码和缩放处理等。图像合成模块,如图像合成器,其用于将图形生成器根据用户输入或自身生成的GUI信号,与缩放处理后视频图像进行叠加混合处理,以生成可供显示的图像信号。帧率转换模块,用于对转换输入视频帧率。显示格式化模块,用于将接收帧率转换后视频输出信号,改变信号以符合显示格式的信号,如输出RGB数据信号。
在一些实施例中,音频处理器,用于接收外部的音频信号,根据输入信号的标准编解码协议,进行解压缩和解码,以及降噪、数模转换、和放大处理等处理中的至少一种,得到可以在扬声器中播放的声音信号。
在一些实施例中,用户可在显示器260上显示的图形用户界面(GUI)输入用户命令,则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
在一些实施例中,〞用户界面″,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素中的至少一种。
在一些实施例中,用户接口280,为可用于接收控制输入的接口(如:显示设备本体上的实体按键,或其他等)。
在一些实施例中,显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构,它们让用户可以管理文件、运行程序并使用系统。上电后,内核启动,激活内核空间,抽象硬件、初始化硬件参数等,运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后,再加载Shell和用户应用程序。应用程序在启动后被编译成机器码,形成一个进程。
参见图4,在一些实施例中,将系统分为四层,从上至下分别为应用程序(Applications)层(简称″应用层″),应用程序框架(Application Framework)层(简称″框架层″),安卓运行时(Android runtime)和系统库层(简称″系统运行库层″),以及内核层。
在一些实施例中,应用程序层中运行有至少一个应用程序,这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等;也可以是第三方开发者所开发的应用程序。在具体实施时,应用程序层中的应用程序包不限于以上举例。
框架层为应用程序层的应用程序提供应用编程接口(aPPlication programminginterface,API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心,这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口,可在执行中访问系统中的资源和取得系统的服务。
如图4所示,本申请实施例中应用程序框架层包括管理器(Managers),内容提供者(Content Provider)等,其中管理器包括以下模块中的至少一个:活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互;位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问;文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息;通知管理器(NotificationManager)用于控制通知消息的显示和清除;窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。
在一些实施例中,活动管理器用于管理各个应用程序的生命周期以及通常的导航回退功能,比如控制应用程序的退出、打开、后退等。窗口管理器用于管理所有的窗口程序,比如获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕,控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。
在一些实施例中,系统运行库层为上层即框架层提供支撑,当框架层被使用时,安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。
在一些实施例中,内核层是硬件和软件之间的层。如图4所示,内核层至少包含以下驱动中的至少一种:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器,温度传感器,压力传感器等)、以及电源驱动等。
当前,很多场合下需要对用户的发言内容进行存储,以备后续使用。示例性的,视频会议、本地会议、在线教育、线下培训和发布会等发言场合,均需要将发言内容存储。相关技术中,通常通过人工记录发言内容。但是,人工记录发言内容存在一定弊端,一方面浪费人力,另一方面记录的内容可能存在错误。所以,如何保证发言内容记录的准确性以及高效率,成为本领域技术人员亟待解决的问题。
本申请实施例中,下述方法涉及的终端可以不仅为显示设备,其他任何具备收音能力的电脑、手机或录音笔等设备均可。
本申请实施例中,所述发言内容中的具体内容可能是通过一个终端获取到的内容,示例性的,线下培训时终端的收音功能开启,该终端接收发言者的语音。也可能是多个终端获取到的内容,示例性的,视频会议中多人通过不同终端发言,将不同终端接收对应用户的语音。下文分别针对一个终端和多个终端的情况下如何保存发言内容进行具体说明。
首先详细说明将多个终端获取到的内容的情况,示例性的,在远程视频场景下存在多个用户通过不同终端发言。
本申请实施例提供一种保存发言内容的方法,可以将多个终端获取到的内容保存为发言内容。如图5所示,所述方法包括:
终端接收用户语音,并将所述语音对应的语音流发送到服务器。
服务器接收终端发送的语音流,发送所述语音流到对端。本申请实施例中,所述对端是其他用户使用的终端。示例性的,所述对端可以是远程视频中的与本地用户连接的其他用户使用的终端。当语音流发送到对端时,对端播放该语音流,用户可以听到对应的语音。同样对端也可以接收与其对应的用户语音,并将对应的语音流发送到服务器,服务器发送到终端。也就是终端A和终端B(对端)通过服务器连接,终端A和终端B可以互相接收并播放对方通过服务器发送语音流,本申请实施例中终端A和终端B的功能相同。
服务器将所述语音流转换为文字内容,将文字内容发送到对端,并将所述文字内容进行处理,将处理后的文字内容作为发言内容保存。
一些实施例中,终端发送设备标识和用户标识到服务器;服务器根据所述设备标识和用户标识,确定发言人名字。本申请实施例中,预先存储有设备标识、用户标识和发言人名字相对应的数据表。当确定设备标识和用户标识时,利用该数据表查找对应的发言人名字。其中,所述用户标识可以为用户账号,所述设备标识是终端的唯一标识,可以利用数字和/或字母等组成。一些情况下,多个终端可以同时登录一个用户账号,利用设备标识、用户标识和发言人名字作为三个元素组成数据表。
将所述发言人名字存储在发言内容中,和/或,将所述发言人名字发送到对端,在与所述文字内容的对应位置处显示发言人名字。本申请实施例中,在存储发言人名字时与对应的文字内容存储在一起。在发送文字内容到对端的同时,还可以发送发言人名字,并显示所述发言人名字,这样可以使用户清楚的看到该段文字内容的发言人。
接收服务器发送的文字内容,控制显示器显示所述文字内容。
一些实施例中,所述方法还包括:终端确定接收用户语音的时间,将所述时间发送到服务器;将所述时间存储在发言内容中,和/或,将所述时间发送到对端,在与所述文字内容对应位置处显示所述时间。本申请实施例中接收用户语音的时间可以理解为发言人发言的时间。示例性的,所述时间可以为21年4月5日13点58分,文字内容可以为开始当前会议。
一些实施例中,所述发言内容可以以表格的形式存储,按照时间顺序排列。示例性的,发言人姓名、文字内容和时间各占一列。
一些实施例中,所述将文字内容进行处理的步骤,该步骤可以由自然语言处理服务器执行,自然语言处理服务由服务器启用,如图6所示,包括:
S100、将所述文字内容进行分词,得到数个词语。一些实施例中,所述文字内容进行分词的步骤包括:数据库中存在若干词语,将文字内容与数据库中的词语匹配,如果文字内容中存在数据库中的词语,将该词语作为,文字内容进行分词得到的词语。
5200、确定所述词语是否为无用词或者专用词。本申请实施例中,设置有无用词库和专用词校矫正库。在无用词库中存储有无用词。在专用词矫正库中存储有专用词以及与其对应的矫正词。所述无用词是指没有含义的词语,例如,嗯,啊等。所述专用词是错误的专用词语,所述矫正词是指正确的专用词语。
S300、如果所述词语为无用词,则将文字内容中的所述词语删除。
如果所述词语为专用词,则将文字内容中的专用词替换为预设的矫正词。由于文字内容的专用词可能是本领域技术人员熟悉了解的某一技术的俗称,由于发言内容保存后是为了便于以后查看使用,所以俗称可能会出现理解偏差的问题,本申请实施例中,将文字内容中的专业词替换为预设的矫正词,这样可以避免出现偏差的问题,便于用户日后查看。
本申请实施例中,将文字内容进行处理后,将文字内容中无用的词语删除,以及将文字内容中的专用词替换为矫正词,这样处理后的文字内容清晰简洁。
一些实施例中,所述方法还包括:服务器发送所述文字内容到终端和对端;所述终端和对端根据设置信息,确定是否控制显示器显示所述文字内容,其中,所述设置信息包括允许显示或不允许显示。本申请实施例,对端的用户在听语音的同时,还可以看到文字内容。但是终端和对端的显示器上是否显示文字内容,可以通过设置信息确定,这样可以提高用户的使用感受,示例性的,如果当前显示界面还显示其他内容,用户并不想让文字内容遮挡当前播放的内容,则可以将设置信息设置为不允许显示。一些实施例中,所述设置信息为允许显示,则控制显示器显示所述文字内容;所述设置信息为不允许显示,则不控制显示器显示所述文字内容。
一些实施例中,为了节约资源,服务器首先判断设置信息的具体内容,如果设置信息包括不允许显示,则不发送文字内容到终端。一些实施例中,服务器根据终端的设置信息和对端的设置信息,确定是否发送文字内容到终端和对端。如果终端的设置信息包括允许显示,发送文字内容到终端,终端将文字内容显示在显示器上。如果终端的设置信息包括不允许显示,则不发送文字内容到终端。服务器根据对端的设置信息,确定是否发送文字内容到对端的具体方法,和有关终端的内容相同,在此不再赘述。
一些实施例中,按照所述时间的顺序将文字内容逐条显示在显示器上。本申请实施例中,将多个终端的文字内容显示在显示器上时,按照文字内容对应时间的顺序显示。一些实施例中,可以限制显示所述文字内容的数量,示例性的,所述文字内容的数量可以为四个。另外,由于对端接收到文字内容的时间稍晚于接收到音频流的时间,这样就会导致用户看到文字内容和听到声音出现不同步的现象,所以本申请实施例在显示器上显示多个文字内容,这样可以减少用户的不良感受。
一些实施例中,用户可以通过终端查看存储的发言内容。所述方法包括:
服务器接收终端发送的查看发言内容的请求,查找预先存储的发言内容,并发送所述发言内容到终端,以使终端显示所述发言内容。本申请实施例中,用户可以通过控制装置按压用户界面上的控件,生成显示发言内容的用户输入。
一些实施例中,对文字内容利用终端处理,不上传到服务器处理。具体的,终端接收用户语音,并将所述语音对应的语音流转换为文字内容,将所述文字内容进行处理,将处理后的文字内容发送到服务器,服务器将处理后的文字内容保存。
上述内容为将多个终端获取到的内容见过转换保存为发言内容的情况,下面说明将一个终端获取到的内容保存为发言内容的情况,示例性的,场景可以为本地会议等,多人开会时利用一个终端获取用户语音。
本申请实施例提供一种保存发言内容的方法,可以将一个终端获取到的内容保存为发言内容,所述方法包括:
终端接收用户语音,并将语音对应的语音流发送到服务器;
服务器将所述语音流转换为文字内容,将所述文字内容进行处理,将处理后的文字内容作为发言内容保存。
一些实施例中,所述服务器按照下述步骤执行将文字内容进行处理:启用自然语言处理服务,以使自然语言处理服务将所述文字内容进行分词,得到数个词语;确定所述词语是否为无用词或者专用词;如果所述词语为无用词,则将文字内容中的所述词语删除;如果所述词语为专用词,则将文字内容中的专用词替换为预设的矫正词。
一些实施例中,还包括服务器发送所述文字内容到终端,所述终端根据设置信息,确定是否控制显示器显示所述文字内容,其中,所述设置信息包括允许显示或不允许显示。如果设置信息为允许显示,则控制终端的显示器显示所述文字内容。如果设置信息为不允许显示,则不控制显示器显示所述文字内容。
一些实施例中,同一终端接收的用户语音,在显示文字内容不显示发言人名字。另一些实施例中,可以通过声纹识别,确定该用户语音对应的发言人名字,并将该发言人名字显示在文字内容对应的位置处。
终端确定接收用户语音的时间;在与所述文字内容对应位置处显示所述时间,按照所述时间的顺序将文字内容逐条显示在显示器上。
上述实施例中,一种保存发言内容的方法、显示设备及服务器,本申请实施例将文字内容进行处理,得到简化和准确的文字内容,将其作为发言内容自动保存,提高记录发言内容的效率以及准确性。该方法包括:接收终端发送的语音流,发送所述语音流到对端;将所述语音流转换为文字内容,将文字内容发送到对端,并将所述文字内容进行处理,将处理后的文字内容作为发言内容保存。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。
Claims (10)
1.一种服务器,其特征在于,用于执行:
接收终端发送的语音流,发送所述语音流到对端;
将所述语音流转换为文字内容,将文字内容发送到对端,并将所述文字内容进行处理,将处理后的文字内容作为发言内容保存。
2.根据权利要求1所述的服务器,其特征在于,所述服务器被配置为按照下述步骤执行将文字内容进行处理:
启用自然语言处理服务,以使自然语言处理服务将所述文字内容进行分词,得到数个词语;确定所述词语是否为无用词或者专用词;
如果所述词语为无用词,则将文字内容中的所述词语删除;
如果所述词语为专用词,则将文字内容中的专用词替换为预设的矫正词。
3.根据权利要求1所述的服务器,其特征在于,在将文字内容发送到对端之前,还用于执行:
接收终端发送的设备标识和用户标识;
根据所述设备标识和用户标识,确定发言人名字,将所述发言人名字发送到对端。
4.根据权利要求1所述的服务器,其特征在于,在将处理后的文字内容作为发言内容保存之前,还用于执行:
接收终端发送的设备标识和用户标识;
根据所述设备标识和用户标识,确定发言人名字,将所述发言人名字存储在发言内容中。
5.根据权利要求1所述的服务器,其特征在于,在将处理后的文字内容作为发言内容保存之前,还用于执行:接收终端发送的接收用户语音的时间,将所述时间存储在发言内容中。
6.根据权利要求1所述的服务器,其特征在于,还用于执行,接收终端发送的接收用户语音的时间,将所述时间发送到对端。
7.一种服务器,其特征在于,用于执行:接收终端发送的查看发言内容的请求,查找预先存储的发言内容,并发送所述发言内容到终端,以使终端显示所述发言内容。
8.一种显示设备,其特征在于,包括:
显示器,用于显示用户界面;
用户接口,用于接收输入信号;
分别与显示器和用户接口连接的控制器,用于执行:
接收用户语音,并将所述语音对应的语音流发送到服务器;
接收服务器发送的文字内容,控制显示器显示所述文字内容。
9.一种保存发言内容的方法,应用于权利要求1-6任一项所述的服务器,其特征在于,包括:
接收终端发送的语音流,发送所述语音流到对端;
将所述语音流转换为文字内容,将文字内容发送到对端,并将所述文字内容进行处理,将处理后的文字内容作为发言内容保存。
10.一种保存发言内容的方法,应用于权利要求7所述的服务器,其特征在于,包括:接收终端发送的查看发言内容的请求,查找预先存储的发言内容,并发送所述发言内容到终端,以使终端显示所述发言内容。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110501846.3A CN113128221A (zh) | 2021-05-08 | 2021-05-08 | 一种保存发言内容的方法、显示设备及服务器 |
PCT/CN2022/084641 WO2022237381A1 (zh) | 2021-05-08 | 2022-03-31 | 保存会议记录的方法、终端及服务器 |
CN202280017554.5A CN117044191A (zh) | 2021-05-08 | 2022-03-31 | 保存会议记录的方法、终端及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110501846.3A CN113128221A (zh) | 2021-05-08 | 2021-05-08 | 一种保存发言内容的方法、显示设备及服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113128221A true CN113128221A (zh) | 2021-07-16 |
Family
ID=76781358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110501846.3A Pending CN113128221A (zh) | 2021-05-08 | 2021-05-08 | 一种保存发言内容的方法、显示设备及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113128221A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106057193A (zh) * | 2016-07-13 | 2016-10-26 | 深圳市沃特沃德股份有限公司 | 基于电话会议的会议记录生成方法和装置 |
CN106301811A (zh) * | 2015-05-19 | 2017-01-04 | 华为技术有限公司 | 实现多媒体会议的方法及装置 |
CN107562723A (zh) * | 2017-08-24 | 2018-01-09 | 网易乐得科技有限公司 | 会议处理方法、介质、装置和计算设备 |
CN107845386A (zh) * | 2017-11-14 | 2018-03-27 | 维沃移动通信有限公司 | 声音信号处理方法、移动终端和服务器 |
CN107911646A (zh) * | 2016-09-30 | 2018-04-13 | 阿里巴巴集团控股有限公司 | 一种会议分享、生成会议记录的方法及装置 |
CN109584882A (zh) * | 2018-11-30 | 2019-04-05 | 南京天溯自动化控制系统有限公司 | 一种针对特定场景的语音转文字的优化方法及系统 |
CN109788232A (zh) * | 2018-12-18 | 2019-05-21 | 视联动力信息技术股份有限公司 | 一种视频会议的会议记要记录方法、装置和系统 |
CN110334347A (zh) * | 2019-06-27 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 基于自然语言识别的信息处理方法、相关设备及存储介质 |
CN111835529A (zh) * | 2019-04-23 | 2020-10-27 | 海能达通信股份有限公司 | 一种语音处理方法及装置 |
CN112560450A (zh) * | 2020-12-11 | 2021-03-26 | 科大讯飞股份有限公司 | 一种文本纠错方法及装置 |
CN112562684A (zh) * | 2020-12-08 | 2021-03-26 | 维沃移动通信有限公司 | 一种语音识别方法、装置和电子设备 |
-
2021
- 2021-05-08 CN CN202110501846.3A patent/CN113128221A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106301811A (zh) * | 2015-05-19 | 2017-01-04 | 华为技术有限公司 | 实现多媒体会议的方法及装置 |
CN106057193A (zh) * | 2016-07-13 | 2016-10-26 | 深圳市沃特沃德股份有限公司 | 基于电话会议的会议记录生成方法和装置 |
CN107911646A (zh) * | 2016-09-30 | 2018-04-13 | 阿里巴巴集团控股有限公司 | 一种会议分享、生成会议记录的方法及装置 |
CN107562723A (zh) * | 2017-08-24 | 2018-01-09 | 网易乐得科技有限公司 | 会议处理方法、介质、装置和计算设备 |
CN107845386A (zh) * | 2017-11-14 | 2018-03-27 | 维沃移动通信有限公司 | 声音信号处理方法、移动终端和服务器 |
CN109584882A (zh) * | 2018-11-30 | 2019-04-05 | 南京天溯自动化控制系统有限公司 | 一种针对特定场景的语音转文字的优化方法及系统 |
CN109788232A (zh) * | 2018-12-18 | 2019-05-21 | 视联动力信息技术股份有限公司 | 一种视频会议的会议记要记录方法、装置和系统 |
CN111835529A (zh) * | 2019-04-23 | 2020-10-27 | 海能达通信股份有限公司 | 一种语音处理方法及装置 |
CN110334347A (zh) * | 2019-06-27 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 基于自然语言识别的信息处理方法、相关设备及存储介质 |
CN112562684A (zh) * | 2020-12-08 | 2021-03-26 | 维沃移动通信有限公司 | 一种语音识别方法、装置和电子设备 |
CN112560450A (zh) * | 2020-12-11 | 2021-03-26 | 科大讯飞股份有限公司 | 一种文本纠错方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114302190A (zh) | 一种显示设备及画质调整方法 | |
CN112672195A (zh) | 遥控器按键设置方法及显示设备 | |
CN113821184A (zh) | 控制装置与显示设备的配对方法及显示设备 | |
CN113490024A (zh) | 控制装置按键设置方法及显示设备 | |
CN112601117A (zh) | 显示设备和内容展示方法 | |
CN112584213A (zh) | 一种显示设备和图像识别结果的展示方法 | |
CN113066491A (zh) | 显示设备及语音交互方法 | |
CN113111214A (zh) | 一种播放记录的显示方法及显示设备 | |
CN112584229A (zh) | 一种显示设备切换频道的方法及显示设备 | |
CN114077724A (zh) | 一种账户管理方法及显示设备 | |
CN113992960B (zh) | 显示设备上字幕预览方法及显示设备 | |
CN115103144A (zh) | 显示设备及音量条显示方法 | |
CN112885347A (zh) | 一种显示设备的语音控制方法、显示设备及服务器 | |
CN113128221A (zh) | 一种保存发言内容的方法、显示设备及服务器 | |
CN115701105A (zh) | 显示设备、服务器及语音交互方法 | |
CN112601116A (zh) | 一种显示设备及内容显示方法 | |
CN113038217A (zh) | 一种显示设备、服务器及应答语生成方法 | |
CN113132809A (zh) | 一种通道切换方法、通道节目播放方法及显示设备 | |
CN113064534A (zh) | 一种用户界面的显示方法及显示设备 | |
CN113286185A (zh) | 一种显示设备及主页显示方法 | |
CN114302101A (zh) | 显示设备和数据共享方法 | |
CN112668546A (zh) | 视频缩略图显示方法及显示设备 | |
CN112882631A (zh) | 显示设备上电子说明书的显示方法及显示设备 | |
CN111914565A (zh) | 电子设备及用户语句的处理方法 | |
CN112788372B (zh) | 一种媒资平台注册方法、显示设备及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210716 |